Blog

Apr
07

评估回归模型(Regression)— 你需要知道这3个指标

基于回归的机器学习模型(Regression-based machine learning models)被数据科学家们用来预测连续属性的值。和任何机器学习问题一样,我们都会有几个指标用来确定模型的整体性能。你选择的指标将取决于训练模型的数据,以及模型的使用方式。在本文中,我将分享三个可用来评估回归模型的性能的指标。

By Zhang Bonnie | Blog
DETAIL
Apr
07

2022年数据工程就业市场:对1000个FAANG职位信息进行分析

2022年数据工程师(Data Engineer)需要哪些技能?为了回答这个问题,本文分析了在LinkedIn上收集的Meta、亚马逊(Amazon)、苹果(Apple)、Netflix和谷歌15加顶尖科技公司的数据工程师职位信息,探索最受欢迎的技能和技术;通过可视化的方法,向你展示这些技能需求的分布和受欢迎程度,帮你求职数据工程师确定方向。

By Zhang Bonnie | Blog
DETAIL
Apr
05

实用SQL函数清单——教你用SQL清理数据

进行数据分析时执行的首要任务之一是创建干净的数据集,很多分析人员80% 的时间都用于处理数据。SQL 可以帮助加快这项重要任务。 在本文,我们将讨论将带你了解SQL的一些基本指令,并解释它的详细用法。可以用这些指令从查询输出中清理、转换和删除我们不想要的形式的重复数据的不同函数。

By Zhang Bonnie | Blog
DETAIL
Apr
05

数据泄露Data Leakage是什么?你为什么要注意?

在执行机器学习任务时,维护数据的干净卫生是至关重要的。然而,尽管现在大家对这个主题都进行了充分的探讨,但对数据卫生的巨大威胁却缺乏认识,比如数据泄漏—Data Leakage。在本文中,我们将探讨什么是数据泄漏,通过介绍一个数据泄露案例,带你了解它是如何发生的,以及应该如何防止。

By Zhang Bonnie | Blog
DETAIL
Apr
03

10个Python函数,帮你解决70%的数据分析问题

如果你想成为一名数据科学家,那你要做的第一步就是培养你的数据处理技能,因为几乎每个数据科学项目都需要这个技能。你需要首先读取数据,并将其转换为表单,然后你就可以通过数据回答问题了。而Python编程语言就有针对数据操作和数据分析工作的 Pandas 库。在这篇文章中,我将概述每一个数据科学家都应该知道的10个python(pandas)操作。

By Zhang Bonnie | Blog
DETAIL
Mar
29

手把手教你用Python创建SQL数据库!

会写SQL很重要,能高效地查询数据库被认为是数据分析师/科学家最基本的技能之一。但如何在没有数据库的情况下练习数据库查询呢?在今天的文章中,让我们一起来解决这个基本问题,学习如何从零开始创建自己的MySQL数据库。在Python和一些外部库的帮助下,我们创建一个脚本来自动创建并使用随机生成的数据,填充我们的表格。

By Zhang Bonnie | Blog
DETAIL
Mar
28

如何准备数据科学的现场编程面试?

现在,大多数数据科学职位都要求候选人掌握一到两种编程语言,而现场编程是面试过程的一个重要组成部分。DS 面试的编程问题一般包括了 SQL、Python 或 R 的应用;随着数据科学的发展,也逐渐扩展了关于AI、机器学习等问题。本文将分享一系列技巧,帮助你为下一次面试做准备。

By Zhang Bonnie | Blog
DETAIL
Mar
28

数据科学初学者起航——六本免费书籍

数据科学是一个跨学科领域,需要计算机科学、数学、统计学和机器学习等多个领域的技能。作为学习数据科学的初学者,你可能不太了解怎么开始学习。如果你没有时间和金钱成本选择训练营或者课程,那你也可以从免费或低成本的资源学习开始。 本文将为初学者介绍六本免费书籍,每本书都涵盖了数据科学中最重要的基本概念之一。

By Zhang Bonnie | Blog
DETAIL