数据科学

Nov
12

每个数据科学家/分析师都应该知道的20个统计概念!

有没有想过数字是如何讲述故事的?这就是统计学的全部意义——通过理解数字来更好地理解事物。把统计学看作是学习数据科学的基础知识。在这个易于理解的指南中,我们将了解20个关键的统计概念。把这些概念想象成理解数据的构建块。它们就像乐高积木一样,单独看起来很简单,但当你把它们放在一起时,就能创造出令人惊叹的东西。

By Zhang Bonnie | Blog
DETAIL
Nov
08

关于Pandas中最难的pivot_table,stack,unstack详解!

虽然大多数Pandas表达式读起来都像英语,但有时你会遇到真正让人头疼的表达式。是的,它们都有直观的名字,比如cut或pivot,但似乎让人无法理解。因此,我决定写一系列文章,专门介绍我认为最难的Pandas函数。本文将详细地解释其中的三个函数:pivot_table、stack和unstack。

By Zhang Bonnie | Blog
DETAIL
Oct
30

哪些特征对你的分类模型有害?

如何计算分类器特征的误差贡献,以理解和改进模型。在本文中,我将解释在分类模型上计算这两个量背后的逻辑。我还将展示一个例子,在这个例子中,与使用预测贡献相比,使用错误贡献进行特征选择会产生更好的结果。

By Zhang Bonnie | Blog
DETAIL
Oct
15

正态分布在数据科学中的应用与使用

对于初学者来说,当涉及到数据科学时,统计学和正态分布是一个很好的起点。我写了一篇文章,概述了原因并详细介绍了正态分布。我们将在这里对这篇文章做一个简短的总结,但会略去很多细节。

By Zhang Bonnie | Blog
DETAIL
Oct
12

Pandas初学者容易犯的六个错误

我们都习惯了在编写代码时经常弹出的又大又红的错误信息。这些错误与你正在使用的工具的API或语法无关,但与最佳实践和你在工具上花费的时间直接相关。今天,我们在这里谈谈初学者使用Pandas经常出现的六个错误,以及我们将学习如何解决它们。

By Zhang Bonnie | Blog
DETAIL
Oct
11

面向对象的数据科学:重构代码

对于数据科学家来说,代码是分析和决策的支柱。随着数据科学应用变得越来越复杂,从嵌入软件的机器学习模型到编排大量信息的复杂数据管道,开发干净、有组织和可维护的代码变得至关重要。在本文中,我们将探讨通过创建类和部署面向对象技术重构数据科学代码的好处,以及这种方法如何增强模块化和可重用性。

By Zhang Bonnie | Blog
DETAIL
Oct
07

NLP不是你想的那样

欢迎来到NLP的故事——一个关于模拟人类语言的编程科学发展的故事。还有那些以个人发展的名义冒充编程科学的人。NLP的两个领域都有其伦理问题和危险。这就是我写这篇文章的原因。这是一种消除歧义的尝试,提高人们对NLP认识的尝试,并使你能够采取小的行动来更有意识地对待语言。这才是有意义的变革可能开始的地方。

By Zhang Bonnie | Blog
DETAIL
Sep
08

Airflow 2.7的重要更新有哪些?

Apache Airflow 2.7.0终于发布了,我们都对这个最新版本中的所有显著功能感到兴奋。新版本包括40个新功能,53个错误修复,49个改进和15个文档更新。此版本的主要焦点是安全性,但同时也提供了许多令人兴奋的与安全性无关的功能。从Airflow 2.7.0开始,在Airflow UI的顶层菜单中引入了一个新的选项卡,称为Cluster Activity…

By Zhang Bonnie | Blog
DETAIL