Blog

May
25

构建数据科学管道的 4 个步骤

数据科学有很多内容要消化,但是当你退后一步再看时,你会发现,它们大多归都可以总结为相同的四个步骤,其中包括查询数据或获取数据、预处理数据、训练数据、然后部署模型。本文的目的,是介绍一个适用于每个数据科学项目的构建步骤。这不仅对初学者数据科学家有帮助,而且对产品经理、软件工程师,甚至可以为高级数据科学家都能带来新视角的帮助。

By Zhang Bonnie | Blog
DETAIL
May
25

2022年,我们给数据科学初学者推荐这5本书

准备好学习更多货真价实的数据科学知识了吗?本文中,我将分享数据的初学者在第一次学习数据科学时可以选择的最佳书籍。这些书帮助成千上万的人学习了数据分析、可视化、高级编程技能、机器学习等等,甚至还帮助他们找到了工作!

By Zhang Bonnie | Blog
DETAIL
May
23

Python为什么这么火?如何利用Python进行数据分析?

编程语言是一个计算机的概念,在我们有了计算机以后,想让它帮助我们做事情,就要通过计算机语言和它进行对话、交互,计算机语言能够被计算机所执行,完成我们需要做的相关任务。今天我们主要的目标是:给大家介绍在所有的编程语言里,为什么Python能被广泛使用,甚至排名第一,给那些做数据分析相关工作和转行的小伙伴介绍数据分析行业里如何使用Python。

By Zhang Bonnie | Blog
DETAIL
May
23

数据工程职业道路:到底该选编程还是无码?

作为一名高级数据工程师,我经常会思考我接下来的职业路径。我的技能更侧重于低代码和无代码,例如我会在 DBT/Airflow 这类工具中编写 SQL 和调度脚本。虽然我使用过 API,但我没有上手写过任何 的API。我开始思考:低代码/无代码数据工程师未来应该怎么走?有职业天花板吗?在我在这门学科中脱颖而出之前,我应该向哪个方向发展?

By Zhang Bonnie | Blog
DETAIL
May
22

Kaggle 还是 Github?哪个对数据科学家更有用?

Github和Kaggle 都是培养你的技能、保存你的工作、供个人或商业用途来赚钱的重要组成方式。Kaggle 可以让你在数据分析、机器学习中使用大量 Python 和 R 代码,构建各种类型的作品集,还可以参加各个方面的培训课程,你甚至还可以通过在比赛中获胜来获得奖励。Github 是编程项目和其框架代码的存储库,你可以根据个人需要,设置与所有人共享,或仅你可见。

By Zhang Bonnie | Blog
DETAIL
May
19

数据科学的核心三角是什么?

就本质而言,数据科学是一个跨学科领域。要想在这方面出类拔萃,重要的是要从它的所有基本学科中汲取经验。在这篇文章中,我将介绍数据科学的三个组成部分——统计学、计算机科学和主要专业技能——并讨论每一部分对数据科学的重要性,以及探讨如果忽略一个或多个组成部分,会出现什么问题。

By Zhang Bonnie | Blog
DETAIL
May
19

Web 3.0时代到来!去中心化技术的互联网将是怎样一番景象

Web 3.0 是最新的互联网技术,它利用机器学习、人工智能和区块链来实现现实世界的人类交流。今天,我们就来讲这个最近比较流行的话题:Web 3.0。本文主要从Web 3.0演变的过程、主要内容、技术的栈,以及在Web 3.0的技术背景下数据科学、人工智能、大数据分析这几个学科有什么变化,需要做什么样的准备。

By Zhang Bonnie | Blog
DETAIL
May
18

如何写好 SQL 代码?

想要锻炼你的编程技能,最简单但最有效的方法之一,就是让你的代码更具可读性(readable)。让你的代码具有可读性,可以使你的代码更易于解释、更容易重现、而且更容易调试。提高可读性的最佳方法就是坚持执行一系列的规则或标准,以它保持一致和干净。在本文中,我将给你分享编写优秀的SQL代码的八个小技巧

By Zhang Bonnie | Blog
DETAIL