Blog

Feb
07

数据科学面试中,你需要问你的雇主这 5 个问题

数据工程是一门很深奥的技能,所以不要认为你可以独自完成这项工作。没有人能在没有数据的情况下开展机器学习。不要假设你可以访问所有你需要的数据。要了解数据管道和基础设施是否已经到位。如果公司要求你构建这些,那么你最好具备数据工程技能。本文将介绍五个你应该问雇主的问题,提前为未来的工作做好准备!

By Zhang Bonnie | Blog
DETAIL
Feb
06

揭秘 10 大数据科学术语(面试中最常见问题)

入门数据科学可能会让人不知所措,你需要掌握的各种概念和技术,才能有效地完成工作时。 即使是“数据科学”这个词也可能有点模糊,随着该领域的普及,它似乎失去了定义。数据科学中流行着很多术语,了解这些术语很重要,因为它们经常出现在数据科学工作面试中。本文将介绍十大数据科学术语。

By Zhang Bonnie | Blog
DETAIL
Feb
04

你如何知道你的分析是“正确的”?

如果你一直和数据打交道,那很可能有人告诉过你“这个数据看起来不太对……” 你可能以为,如果我再小心谨慎细致一些,就不会出现这些错误了。但其实,在向利益相关者展示报告之前,尽最大努力验证最终结果,对于增强信心和获得信任是非常重要的。本文将介绍几种方法,让你了解如何验证自己的数据正确与否。

By Zhang Bonnie | Blog
DETAIL
Feb
04

只需要简单3 步!在 Azure 上构建部署微服务 NLP 模型

对于数据科学家来说,处理数据是一回事,但将机器学习模型部署到生产环境可能是另一回事。根据不同的云部署方式,这个过程可能需要几分钟到几个小时不等。更重要的是,部署方式还应该基于可扩展性和你的预算要求。 本文将展示一种直接使用 Python 代码(不是构建容器),将 NLP 模型作为微服务,然后部署到 Azure 的快速方法。

By Zhang Bonnie | Blog
DETAIL
Feb
02

从Marplotlib到Plotly: 教你入门Python数据可视化

Matplotlib 是在 Python 中创建可视化最快且最直接的工具,但它最适合初始的探索性分析和静态绘图。而Plotly 是一个较新的开源图形库,可以高效地创建更复杂的交互式可视化。本文将逐步带领你通过 Plotly 创建带有自定义工具框(Customized Tooltips)和范围滑(Range Slider)的交互式组合图(Interactive Combo Chart)。你将学习Plotly的关键概念和特性,文章也会为您提供完整的代码。

By Zhang Bonnie | Blog
DETAIL
Feb
02

从头开始实现Naive Bayesian朴素贝叶斯

朴素贝叶斯(naive Bayes)分类器是一种用贝叶斯定理,从而对对象进行分类的算法。此模型易于构建,对于非常大的数据集特别有用。 除了简单之外,众所周知,朴素贝叶斯的效果甚至优于高度复杂的分类方法。如果你有涉猎过机器学习,那你一定听说过这个模型。在本文中,我们将用Python和NumPy一步一步地从零开始实现朴素贝叶斯分类器。

By Zhang Bonnie | Blog
DETAIL
Jan
31

Hadoop是什么?一篇文章带你快速入门

大数据(Big Data)是指需要存储、分析、处理的海量数据。而Hadoop是一个开源数据库框架,由Apache软件基金会(ASF)管理,编写语言为Java,用户可以通过Hadoop存储并处理大数据集(从GB到 PB 级),解决了大数据的两个主要问题——存储海量数据并处理存储的数据。本文将带你了解Hadoop,并扩展讨论Spark的技术和应用场景。

By Zhang Bonnie | Blog
DETAIL
Jan
26

Power BI 建模 —— 一些提示和小技巧

模型的定义是“一个由假设、数据和推理组成的系统,以对实体或事态的数学描述的形式呈现。” 数据科学家的模型也是为了做同样的事情。而不管是对于个人还是企业,一个模型越简单,就越容易理解、管理、更新和维护。本文将介绍一个经过简化的模型,以及一些可以帮你排除故障的工具。

By Zhang Bonnie | Blog
DETAIL