七个实用的Python机器学习库
谚语说“你不必重新发明轮子”,数据库就是最好的例子。它帮助你以简单的方式编写复杂而耗时的功能。根据我的说法,一个好的项目需要一些最好的数据库。在这里,我整理了七个有用的Python库,这些数据库将有效帮助你进行机器学习的开发。
3步走方略——用Python为数据科学项目收集数据
一个网页的数据可能并不齐全,无法满足我们所需,或者它可能有一些不一致性,导致我们只爬取了一部分数据。我从世界杯网页上爬取1930到2022的足球比赛时,这种情况就发生在我身上了。我只爬取了部分数据,而不是全部。在这篇文章中,我们将使用Selenium从头开始爬取剩余的足球比赛数据,以便稍后在项目中使用这些数据。
担任数据科学经理的前半年,我学到了什么?
结合自身情况,我写下了这篇文章,希望能帮助到大家。在这篇文章中,我将先写在工作后我面临的最大挑战:1.适应非科技性的公司2.招聘和雇用(在某些情况下,与1相关)。当然,这并不是全部,但我想从这两条讲起,因为它们至少占用了我一天的四分之三。
DeepAR——通过深度学习掌握时间序列预测
几年前,时间序列模型只适用于一个序列。因此,如果我们有多个时间序列,一个选项是为每个序列创建一个模型。或者,如果我们能够将数据“表格化”,我们就可以应用梯度增强的树模型——即使在今天也能有很大的作用。第一个可以在多个时间序列上运行的模型是DeepAR,这是亚马逊开发的自回归递归网络。在本文中,我们将了解DeepAR是如何深入工作的,以及为什么它是时间序列社区的里程碑。
Python的自回归分布滞后模型简介
如果时间序列包含多个变量,那么它就是多元的。假设你想预测其中一个变量。比如起泡酒的销量(个人喜好)。你如何通过一个模型来实现?常见的方法就是将该变量视为单变量时间序列。有很多模拟这些序列的方法。例如ARIMA,exponential smoothing,或者Facebook的Prophet,自动回归机器学习方法被越来越多地使用。然而,其他变量也可能包含起泡酒未来销售的重要线索。
数据科学家应知的三个回归事项
一个模型的好坏取决于你对它的理解,我担心很多人都在运行模型时看到它的最初的结果就浅尝辄止了。当谈到回归建模——最常见的建模形式之一,如果你能了解一些关于这些模型的工作原理以及它们设置方式的简单信息,你将成为更好的数据科学家。
提升数据科学水平的五个必备知识
如果你对重新研究数学有点犹豫,这是个好消息。成为一名成功的数据科学家,你不需要正式的数学学位,也不需要成为抽象证明的专家。你真正需要的是数据科学中能实际应用的统计概念知识,(例如设计用户研究、运行假设测试、有效使用机器学习模型等)。
微软宣布:分页报告,我们使用Power BI
分页报告是传统的操作报告,具有类似文档的输出要求,最适合被用于运营流程(如发票、目录、合同、提货单等)的多页列表类型报告。分页报告的一个主要好处是:它们可编程,这使报告作者对其报告的结构和格式有更大的灵活性和控制力……