数据科学

Oct
15

正态分布在数据科学中的应用与使用

对于初学者来说,当涉及到数据科学时,统计学和正态分布是一个很好的起点。我写了一篇文章,概述了原因并详细介绍了正态分布。我们将在这里对这篇文章做一个简短的总结,但会略去很多细节。

By Zhang Bonnie | Blog
DETAIL
Oct
12

Pandas初学者容易犯的六个错误

我们都习惯了在编写代码时经常弹出的又大又红的错误信息。这些错误与你正在使用的工具的API或语法无关,但与最佳实践和你在工具上花费的时间直接相关。今天,我们在这里谈谈初学者使用Pandas经常出现的六个错误,以及我们将学习如何解决它们。

By Zhang Bonnie | Blog
DETAIL
Oct
11

面向对象的数据科学:重构代码

对于数据科学家来说,代码是分析和决策的支柱。随着数据科学应用变得越来越复杂,从嵌入软件的机器学习模型到编排大量信息的复杂数据管道,开发干净、有组织和可维护的代码变得至关重要。在本文中,我们将探讨通过创建类和部署面向对象技术重构数据科学代码的好处,以及这种方法如何增强模块化和可重用性。

By Zhang Bonnie | Blog
DETAIL
Oct
07

NLP不是你想的那样

欢迎来到NLP的故事——一个关于模拟人类语言的编程科学发展的故事。还有那些以个人发展的名义冒充编程科学的人。NLP的两个领域都有其伦理问题和危险。这就是我写这篇文章的原因。这是一种消除歧义的尝试,提高人们对NLP认识的尝试,并使你能够采取小的行动来更有意识地对待语言。这才是有意义的变革可能开始的地方。

By Zhang Bonnie | Blog
DETAIL
Sep
08

Airflow 2.7的重要更新有哪些?

Apache Airflow 2.7.0终于发布了,我们都对这个最新版本中的所有显著功能感到兴奋。新版本包括40个新功能,53个错误修复,49个改进和15个文档更新。此版本的主要焦点是安全性,但同时也提供了许多令人兴奋的与安全性无关的功能。从Airflow 2.7.0开始,在Airflow UI的顶层菜单中引入了一个新的选项卡,称为Cluster Activity…

By Zhang Bonnie | Blog
DETAIL
Sep
04

如何建立一个全自动的数据漂移检测管道

当生产环境中的输入特征分布与训练数据不同时,就会发生数据漂移,从而导致潜在的不准确性和模型性能下降。为了减轻数据漂移对模型性能的影响,我们可以设计一个工作流来检测漂移,通知数据团队,并触发模型再训练。工作流包括两种类型的任务:数据科学和数据工程任务。

By Zhang Bonnie | Blog
DETAIL
Aug
31

求职必杀技!Linkedin中的个人品牌塑造(针对IT和数据专业人士)

在当今竞争激烈的就业市场中,数据工程师仅仅依靠技术技能和经验已经不够了。个人品牌已经成为一种强大的工具,可以帮助各级数据工程师从人群中脱颖而出,并获得新的工作机会。本文旨在阐明个人品牌对各级数据工程师的重要性,并就如何建立和利用强大的个人品牌提供实用的见解。我个人发现把我的个人品牌放在linkedin上有很多好处,我的收件箱总是充满了关于工作机会以及与各个专业水平的人建立联系的信息。

By Zhang Bonnie | Blog
DETAIL
Jul
20

2023年需要考虑的十大前沿数据职业

如今,数据领域的职业不再局限于数据采集、数据工程、数据科学、数据分析或报告,而是延伸出以下几个职业。新闻业自17世纪以来就已存在。使用数据来创建和报告故事并不是什么新鲜事。好的新闻报道总是以统计数据、事实和视觉效果作为开头。到了2023年,有些工作岗位为分析和筛选大型数据集提供职位,以创建或提升新闻报道质量。

By Zhang Bonnie | Blog
DETAIL