数据科学

Nov
20

数据的特征选择技术

当数据集非常庞大时,我们很难建立模型。庞大的数据集需要大量的时间和强大的计算能力来工作,它们已然耗尽了模型所需要的一切。特征选择是一种方法,我们可以只选择重要或最有贡献的特征进行训练,同时所需的代价非常小或几乎不损失精度。

By Zhang Bonnie | Blog
DETAIL
Nov
09

如何成为全栈数据科学家?

全栈数据科学家是一个独特的角色,他能够充当软件工程师,数据工程师,业务分析师,机器学习工程师和数据科学家的角色,操办所有的事务。这个人拥有多样化的技能,甚至超出了普通数据科学家的技能,并且可以成为公司管理数据科学项目整个生命周期的一站式服务。

By Zhang Bonnie | Blog
DETAIL
Nov
06

2022 年科学家必须知道的顶级MLOps工具数据

MLOps 的主要优势是高效率、可扩展性和可再现性。MLOps 包括从数据流到机器学习模型部署的所有内容。在某些情况下,MLOps 只是用于模型部署,但你也可以找到更成熟的企业,它们已经在各种 ML开发领域实现了MLOps,如探索性数据分析(EDA)、数据预处理、模型训练等。

By Zhang Bonnie | Blog
DETAIL
Oct
31

成为高效数据科学家需要做的五步数据科学项目生命周期

由于有软件开发的教育背景,我对“软件开发生命周期”(SDLC)烂熟于心,我为自己准备了许多检查清单,确保我尽可能地编写最好的代码。当我开始在网上查阅大量的数据科学课程和证书时,我注意到有一个重要的东西被遗漏了:任何对项目生命周期的提及。直到我自己挖掘,我才知道数据科学确实有一个通用的生命周期,而且它足够灵活,可以进行修改,能适应每个团队或项目的需求。

By Zhang Bonnie | Blog
DETAIL
Oct
24

用合成数据创建机器学习欺诈模型

为了缓解欺诈问题,机器学习欺诈检测研究已经做出了许多努力,但仍然没有完美的解决方案。这是可以理解的,因为每个企业都有不同的需求,数据也在不断发展。

By Zhang Bonnie | Blog
DETAIL
Oct
12

大部分数据科学课程没有教给你的内容

大多数数据科学课程都可以很好地帮助你开始学习编程语言,并刷新你已有的数学和统计知识,但它们缺乏几个专门针对你在工作中所需技能的模块,这些技能将帮助你与其他数据科学家一起高效地工作,并让非数据科学家也可以理解你的工作。

By Zhang Bonnie | Blog
DETAIL
Oct
03

决策树剪枝101

决策树是一种非监督学习方法,可用于分类和回归任务。目标是建立一个模型,通过学习从数据特征推断的简单决策规则来预测目标变量的值。决策树是机器学习算法之一,容易过度拟合。剪枝是一种技术,它删除了决策树中阻止其生长到完全深度的部分。它从树中移除的部分是不提供对实例进行分类的功能的部分。一个被训练到其最大深度的决策树很可能会导致过度拟合训练数据,因此剪枝是很重要的。

By Zhang Bonnie | Blog
DETAIL
Sep
25

数据岗位求职:2022秋招,多家北美大厂停止招聘,还有哪些数据岗位在招人?

疫情之后,美国的经济也遇到一些罕见的情况,很多公司都开始缩减招聘预算,在这种复杂的情况下,我们很有必要看看还有哪些公司在招人?哪些行业还在持续增加招聘预算?准备这些企业的面试需要注意哪些问题?怎样提升面试的成功率?

By Zhang Bonnie | Blog
DETAIL