Blog

Nov
06

2022 年科学家必须知道的顶级MLOps工具数据

MLOps 的主要优势是高效率、可扩展性和可再现性。MLOps 包括从数据流到机器学习模型部署的所有内容。在某些情况下,MLOps 只是用于模型部署,但你也可以找到更成熟的企业,它们已经在各种 ML开发领域实现了MLOps,如探索性数据分析(EDA)、数据预处理、模型训练等。

By Zhang Bonnie | Blog
DETAIL
Oct
31

Kumu的ML工程:将模型转化为产品

机器学习工程(MLE)是将软件工程和数据科学技能相结合的过程,目的是将机器学习模型转化为可用的产品。它包括训练模型并通过Inference endpoints公开这些模型,以及优化数据处理和数据检索,以实现生产的延迟性和稳定性。

By Zhang Bonnie | Blog
DETAIL
Oct
31

成为高效数据科学家需要做的五步数据科学项目生命周期

由于有软件开发的教育背景,我对“软件开发生命周期”(SDLC)烂熟于心,我为自己准备了许多检查清单,确保我尽可能地编写最好的代码。当我开始在网上查阅大量的数据科学课程和证书时,我注意到有一个重要的东西被遗漏了:任何对项目生命周期的提及。直到我自己挖掘,我才知道数据科学确实有一个通用的生命周期,而且它足够灵活,可以进行修改,能适应每个团队或项目的需求。

By Zhang Bonnie | Blog
DETAIL
Oct
27

数据分析求职最常用的30种大数据工具,你掌握几个了?

重要。使用正确的大数据工具是企业提高自身优势、战胜竞争对手的必要条件。下面让我们来了解一下最常用的30种大数据工具,紧跟大数据发展脚步

By Zhang Bonnie | Blog
DETAIL
Oct
27

数据科学家V.S数据分析师面试全对比

Medium网站上有很多用户都在找数据科学家或数据分析师的职位,所以他们对这两种职位的面试过程都很感兴趣。而我曾经分别在几家公司参加过这两个职位的面试。

By Zhang Bonnie | Blog
DETAIL
Oct
24

用合成数据创建机器学习欺诈模型

为了缓解欺诈问题,机器学习欺诈检测研究已经做出了许多努力,但仍然没有完美的解决方案。这是可以理解的,因为每个企业都有不同的需求,数据也在不断发展。

By Zhang Bonnie | Blog
DETAIL
Oct
24

8种防止过拟合的技术

当模型在训练集上表现良好但在测试集表现不佳时,就会发生过拟合。过拟合是机器学习中一个非常常见的问题,并且有大量文献致力于研究防止过拟合的方法。在本文中,将描述八种简单的方法来防止过拟合,通过在每种方法中只对数据、模型或学习算法进行改进来缓解过拟合。

By Zhang Bonnie | Blog
DETAIL
Oct
22

什么是特征选择?为什么它很重要?

本文将帮助你解决以下面试中遇到的问题:什么是特征选择?说出特征选择的好处?你知道哪些特征选择技巧?区分单变量、双变量和多变量分析。我们能用PCA来进行特征选择吗?前向特征选择和后向特征选择的区别是什么?

By Zhang Bonnie | Blog
DETAIL