Blog

Dec
30

三代BI(商业智能)工具的演变

管运营团队已经获得了很大的自主权,但数据团队仍然插手了太多工作。我们要做的,是消除运营团队对数据团队的依赖,让数据团队能够专注于更深层次的工作,让其他团队能够各司其职,不被烦扰。那么,我们要如何做到这一点呢?先让我们看看过去几十年BI的演变吧!三代BI工具分别是:传统BI、自助式BI和增强分析。BI工具发展的特点是逐渐将运营团队/领域专家从数据团队和IT中解放出来。

By Zhang Bonnie | Blog
DETAIL
Dec
26

0经验?一样能成为一名成功的数据科学顾问!

当你提交了300份简历,终于得到一个基础岗位的应聘机会后,还有500个应聘者等着与你竞争这个岗位。但是,不管怎么说,同样是在数据科学行业工作,为什么不去成为一名数据科学顾问呢?当你可以自立门户时,为什么要与那么多应聘者作斗争呢?7分钟时间,让本文告诉你如何成为一名数据科学顾问。

By Zhang Bonnie | Blog
DETAIL
Dec
26

七个实用的Python机器学习库

谚语说“你不必重新发明轮子”,数据库就是最好的例子。它帮助你以简单的方式编写复杂而耗时的功能。根据我的说法,一个好的项目需要一些最好的数据库。在这里,我整理了七个有用的Python库,这些数据库将有效帮助你进行机器学习的开发。

By Zhang Bonnie | Blog
DETAIL
Dec
22

3步走方略——用Python为数据科学项目收集数据

一个网页的数据可能并不齐全,无法满足我们所需,或者它可能有一些不一致性,导致我们只爬取了一部分数据。我从世界杯网页上爬取1930到2022的足球比赛时,这种情况就发生在我身上了。我只爬取了部分数据,而不是全部。在这篇文章中,我们将使用Selenium从头开始爬取剩余的足球比赛数据,以便稍后在项目中使用这些数据。

By Zhang Bonnie | Blog
DETAIL
Dec
22

担任数据科学经理的前半年,我学到了什么?

结合自身情况,我写下了这篇文章,希望能帮助到大家。在这篇文章中,我将先写在工作后我面临的最大挑战:1.适应非科技性的公司2.招聘和雇用(在某些情况下,与1相关)。当然,这并不是全部,但我想从这两条讲起,因为它们至少占用了我一天的四分之三。

By Zhang Bonnie | Blog
DETAIL
Dec
20

DeepAR——通过深度学习掌握时间序列预测

几年前,时间序列模型只适用于一个序列。因此,如果我们有多个时间序列,一个选项是为每个序列创建一个模型。或者,如果我们能够将数据“表格化”,我们就可以应用梯度增强的树模型——即使在今天也能有很大的作用。第一个可以在多个时间序列上运行的模型是DeepAR,这是亚马逊开发的自回归递归网络。在本文中,我们将了解DeepAR是如何深入工作的,以及为什么它是时间序列社区的里程碑。

By Zhang Bonnie | Blog
DETAIL
Dec
19

Python的自回归分布滞后模型简介

如果时间序列包含多个变量,那么它就是多元的。假设你想预测其中一个变量。比如起泡酒的销量(个人喜好)。你如何通过一个模型来实现?常见的方法就是将该变量视为单变量时间序列。有很多模拟这些序列的方法。例如ARIMA,exponential smoothing,或者Facebook的Prophet,自动回归机器学习方法被越来越多地使用。然而,其他变量也可能包含起泡酒未来销售的重要线索。

By Zhang Bonnie | Blog
DETAIL
Dec
14

数据科学家应知的三个回归事项

一个模型的好坏取决于你对它的理解,我担心很多人都在运行模型时看到它的最初的结果就浅尝辄止了。当谈到回归建模——最常见的建模形式之一,如果你能了解一些关于这些模型的工作原理以及它们设置方式的简单信息,你将成为更好的数据科学家。

By Zhang Bonnie | Blog
DETAIL