数据科学

Nov
21

每个Python Pandas开发人员都应该知道的提高生产力的十大库

在本文中,我将分享每个Python Pandas开发人员都应该知道的10个库,以提高工作效率并使数据处理任务更轻松。我将提供每个库的代码片段和解释。这些库可以极大地提高Python Pandas开发人员的工作效率。无论你是处理数据分析、可视化还是数据处理,拥有这些工具将使你的工作更轻松,代码更高效。

By Zhang Bonnie | Blog
DETAIL
Nov
20

你可能不熟悉的5种数据结构(但非常有用!)

本文介绍5种你可能不熟悉的数据结构,包括布隆过滤器、Rope、四叉树、伸展树、跳跃表。相信我,它们非常有用!

By Zhang Bonnie | Blog
DETAIL
Nov
12

每个数据科学家/分析师都应该知道的20个统计概念!

有没有想过数字是如何讲述故事的?这就是统计学的全部意义——通过理解数字来更好地理解事物。把统计学看作是学习数据科学的基础知识。在这个易于理解的指南中,我们将了解20个关键的统计概念。把这些概念想象成理解数据的构建块。它们就像乐高积木一样,单独看起来很简单,但当你把它们放在一起时,就能创造出令人惊叹的东西。

By Zhang Bonnie | Blog
DETAIL
Nov
08

关于Pandas中最难的pivot_table,stack,unstack详解!

虽然大多数Pandas表达式读起来都像英语,但有时你会遇到真正让人头疼的表达式。是的,它们都有直观的名字,比如cut或pivot,但似乎让人无法理解。因此,我决定写一系列文章,专门介绍我认为最难的Pandas函数。本文将详细地解释其中的三个函数:pivot_table、stack和unstack。

By Zhang Bonnie | Blog
DETAIL
Oct
30

哪些特征对你的分类模型有害?

如何计算分类器特征的误差贡献,以理解和改进模型。在本文中,我将解释在分类模型上计算这两个量背后的逻辑。我还将展示一个例子,在这个例子中,与使用预测贡献相比,使用错误贡献进行特征选择会产生更好的结果。

By Zhang Bonnie | Blog
DETAIL
Oct
15

正态分布在数据科学中的应用与使用

对于初学者来说,当涉及到数据科学时,统计学和正态分布是一个很好的起点。我写了一篇文章,概述了原因并详细介绍了正态分布。我们将在这里对这篇文章做一个简短的总结,但会略去很多细节。

By Zhang Bonnie | Blog
DETAIL
Oct
12

Pandas初学者容易犯的六个错误

我们都习惯了在编写代码时经常弹出的又大又红的错误信息。这些错误与你正在使用的工具的API或语法无关,但与最佳实践和你在工具上花费的时间直接相关。今天,我们在这里谈谈初学者使用Pandas经常出现的六个错误,以及我们将学习如何解决它们。

By Zhang Bonnie | Blog
DETAIL
Oct
11

面向对象的数据科学:重构代码

对于数据科学家来说,代码是分析和决策的支柱。随着数据科学应用变得越来越复杂,从嵌入软件的机器学习模型到编排大量信息的复杂数据管道,开发干净、有组织和可维护的代码变得至关重要。在本文中,我们将探讨通过创建类和部署面向对象技术重构数据科学代码的好处,以及这种方法如何增强模块化和可重用性。

By Zhang Bonnie | Blog
DETAIL