数据分析

Jan
04

只会Pandas?来学习这25种Pandas变SQL的方法,让你的数据分析更得心应手!

毫无疑问,SQL和Pandas都是数据科学家处理数据的强大工具。一般来说,SQL是一种用于管理和操作数据库中数据的语言,而Pandas是Python中的数据操作和分析库。此外,SQL通常用于从数据库中提取数据,在Python中进行分析(主要使用Pandas)。它的工具和功能齐全,能很好地处理表格数据,如数据操作、数据分析和可视化等。将SQL和Pandas一起使用,我们就能清理、变换和分析大型数据集,创建复杂的数据管道和模型,这对作为数据科学家大有裨益,也因此,我们必须精通它们。在本文中,我将带你一步一步走,一起将最常见的Pandas操作变为SQL查询。

By Zhang Bonnie | Blog
DETAIL
Jan
04

我在第一份业务分析师工作中学到的五条经验

虽然每个公司都是不同的,作为一个业务分析师的角色可能不需要承担完全相同的职责,但我相信我在这里分享的经验教训适用于无论你在哪个行业或公司工作。根据我的经验,你很有可能像我一样融入团队,并与利益相关者密切合作,优化业务。如果你赶时间,这里有五条经验教训,但我强烈建议你继续阅读这篇文章,以便从中获得最大的收获。

By Zhang Bonnie | Blog
DETAIL
Dec
30

五本顶级的数据清理和特征工程书籍

数据清理和特征工程是数据科学家日常工作的重要部分,这是每天必做的事情,能够有效地清理数据和设计功能,将达到事半功倍的效果。要想扩展你的知识和技能,你可以找到很多这方面的书,我浏览了大部分,本文将推荐五本顶级的数据清理和特征工程书籍。

By Zhang Bonnie | Blog
DETAIL
Dec
22

3步走方略——用Python为数据科学项目收集数据

一个网页的数据可能并不齐全,无法满足我们所需,或者它可能有一些不一致性,导致我们只爬取了一部分数据。我从世界杯网页上爬取1930到2022的足球比赛时,这种情况就发生在我身上了。我只爬取了部分数据,而不是全部。在这篇文章中,我们将使用Selenium从头开始爬取剩余的足球比赛数据,以便稍后在项目中使用这些数据。

By Zhang Bonnie | Blog
DETAIL
Dec
19

Python的自回归分布滞后模型简介

如果时间序列包含多个变量,那么它就是多元的。假设你想预测其中一个变量。比如起泡酒的销量(个人喜好)。你如何通过一个模型来实现?常见的方法就是将该变量视为单变量时间序列。有很多模拟这些序列的方法。例如ARIMA,exponential smoothing,或者Facebook的Prophet,自动回归机器学习方法被越来越多地使用。然而,其他变量也可能包含起泡酒未来销售的重要线索。

By Zhang Bonnie | Blog
DETAIL
Dec
11

微软宣布:分页报告,我们使用Power BI

分页报告是传统的操作报告,具有类似文档的输出要求,最适合被用于运营流程(如发票、目录、合同、提货单等)的多页列表类型报告。分页报告的一个主要好处是:它们可编程,这使报告作者对其报告的结构和格式有更大的灵活性和控制力……

By Zhang Bonnie | Blog
DETAIL
Nov
27

数据工程——Scala与Python的区别

这实际上取决于你想在数据工程中做什么以及你想在哪里工作。我同意SQL和Python是最重要的入门工具,它可以让你获得比Scala多得多的机会。Scala市场是一个由Spark主导的超级市场,这实际上是一个非常不愉快的工作。这些公司往往被迫在内部办公,因此云开发机会稀少。与Python相比,它并没有什么好处,除非你打算完全使用Scala SWE。

By Zhang Bonnie | Blog
DETAIL
Nov
20

数据的特征选择技术

当数据集非常庞大时,我们很难建立模型。庞大的数据集需要大量的时间和强大的计算能力来工作,它们已然耗尽了模型所需要的一切。特征选择是一种方法,我们可以只选择重要或最有贡献的特征进行训练,同时所需的代价非常小或几乎不损失精度。

By Zhang Bonnie | Blog
DETAIL