Blog

Nov
22

Huber回归和Ridge回归:如何处理Python中的异常值?

在处理数据中的异常值时,传统的线性回归(Linear Regression)可能存在一些缺点。如果一个数据点离集合中的其他点很远,这会极大地影响最小二乘回归线,接近集合数据点的总体方向的线将因异常值的存在而发生偏移。本文将介绍如何处理数据样本中的异常值、Huber回归和Ridge回归的区别、如何在Huber回归中修改异常值敏感度、以及如何用 RMSE 确定模型。

By Zhang Bonnie | Blog
DETAIL
Nov
21

Pandas和SQL,数据科学家应该用哪个?

Pandas和SQL不仅对数据科学家很重要,对数据分析和商业智能等类似领域的业内人士也很重要。Pandas 的优势体现在处理你已经有的数据集,而业内人士最常使用的语言可能就是SQL了。但数据科学家在什么情况下应该专门使用 Pandas 而不是 SQL,什么情况下用SQL而不是Pandas?本文将详细讨论,在不同情况下,如何正确选用Pandas和SQL。

By Zhang Bonnie | Blog
DETAIL
Nov
20

如何准备DS数据科学家面试?

数据科学家是帮助企业实现业务最终目标的团队中的一员,而这些目标是与产品或客户有关的。网络上有很多数据科学的面试指南,但很少有人强调与同事交流的重要性,以及数据科学对业务的影响。因此,本文将从与利益相关者协作、KPI、文化契合这三个实践领域介绍,帮助你的数据科学面试准备过程。

By Zhang Bonnie | Blog
DETAIL
Nov
20

神经网络——不止是深度学习

神经网络(Neural Networks)是计算智能(Computational Intelligence)的一个分支,比深度学习更加高级。然而,神经网络不仅仅是深度分类/回归算法。神经网络研究领域包括前馈神经网络、循环神经网络、自组织神经网络、深度学习、卷积神经网络等。这篇文章会对三种不同类型的神经网络——卷积神经网络、自组织特征图、和极限学习机进行高度概括。

By Zhang Bonnie | Blog
DETAIL
Nov
19

商业分析师的面试问题,教你如何回答

商业分析的需求非常大,而且对于那些担任该这个职位的人来说,未来该职位的竞争压力一定很大!因此,在面试过程中,候选人需要对技术类问题做好充分的准备。同时,他们还需要展示一定的心理形象(Psychographic Profile)。本文会讨论一些BA面试相关的问题,帮助越来越多的人具体了解面试过程中需要保持何种心态,以及如何正确应对!

By Zhang Bonnie | Blog
DETAIL
Nov
18

只需10步!转行成为优秀BA商业分析师!

商业分析师的工作环境非常复杂。商业分析师帮公司制定策略、售卖产品、提高收入及利润,帮助企业成长,增加工作效率、提高办公条理性,取得更好的成绩。每个商业分析师必须能够与利益相关者互动,在瞬息万变的商业环境中了解并响应他们的需求。本文通过介绍十个步骤,带你了解如何成功转行商业分析师。

By Zhang Bonnie | Blog
DETAIL
Nov
15

Airflow 101: 隐藏小技巧帮你快速上手!

Airflow 是一个开源的workflow automation框架,能让开发人员高效的创作、调度和监控数据管道(Data Pipeline)。 成功的data pipeline可以有效地移动数据,最大限度地减少任务之间的暂停和阻塞,使每个流程都能正常运行。Airflow相关经验是数据工程和数据科学家最需要的技术技能之一,在许多数据职位招聘信息中都被列为要求的技能。

By Zhang Bonnie | Blog
DETAIL
Nov
15

怎么用Pandas聚合时间序列数据?

时间序列是一种特殊的数据,其数据点在时间上存在相关性。在分析时间序列数据时,你得到结论的效率很大程度上取决于处理时间维度的能力。在本文中,我想介绍几种方法,用于分析当前最流行的Python数据处理库—Pandas 是如何帮助你执行这些聚合的,以及在处理时间时,有什么特别之处。

By Zhang Bonnie | Blog
DETAIL