数据清理101:避免在数据中陷入这5个陷阱

数据清理101:避免在数据中陷入这5个陷阱

数据清理是数据科学的一项基本技能。了解数据隐藏的五个最常见的陷阱,以及如何像专业人士一样识别和处理它们。 

并不是所有的数据科学家都是一样的——有些人擅长创建机器学习模型,而另一些人则擅长创建视觉效果。

但所有数据科学家都需要擅长的一件事就是清理数据。那么,如何才能变的擅长呢?首先,你应该避免以下五个错误!

当你不再忽视这些数据错误时,你就不会再犯这些错误。让我们先看看这些错误是什么。在本文的最后,我将提出一个可以解决这五个错误的解决方案。

如果你喜欢在阅读这篇文章时听到我的声音,这里是我谈论这些数据清理错误的视频。https://www.youtube.com/watch?v=tT7STcGCvUY

如果你想了解更多关于数据科学的相关内容,可以阅读以下这些文章:
苹果面试流程:数据科学家的完整指南
每个数据科学家都应该知道的关于回归的三个简单的事情
5个ChatGPT插件,让你领先于99%的数据科学家!
数据科学初学者必备的7个备忘单!

在清理数据时,你会注意到的一件事是,几乎总是有缺失的值。大多数人不知道数据丢失的原因。是更高的权力在起作用?是数据在清理时丢失的吗?这不是你能找到答案的。你需要做的是处理这些缺失的值。

不处理缺失值可能会引入偏差,并导致荒谬、不准确的结论。有许多处理丢失数据的方法。这三种是最常见的:

  1. 删除具有缺失数据的行或列
  2. 使用诸如平均值、中位数或众数等替代缺失值
  3. 使用可以处理这些缺失值的算法,例如随机森林

缺失值的反面是异常值。它只是一个没有意义的花哨的数据词。

图片由作者提供

不正确处理这些异常值可能会扭曲你的观点和结论。但是,你怎么知道一个异常值就是一个异常值呢?例如,一栋价值200万美元的房子可能是一个异常值。除非你住在纽约或旧金山。那么,200万美元只是平均价格。

那么,你如何发现异常值,又如何处理它们呢?有两种方法:

  1. 可视化方法-创建框图和散点图,以便你可以看到离群值
  2. 统计方法-使用z-score或IQR方法在统计上找到这些异常值

这一切都很好,但通常情况下,你甚至无法开始读取数据。这是数据清理中的一个常见问题:数据不一致。换句话说,你可能有不同的日期格式或大小写用法,这使得分析数据变得非常困难。

要解决这个问题,你需要通过以下方式使数据格式一致:

  1. 标准化数据,以保持格式、单位和比例的一致性
  2. 通过实现数据验证检查来自动化工作,也就是软件开发人员用于测试特性的单元测试。

不仅仅是格式会导致问题。数据类型也可能引起问题。直到为时已晚才检查它们也是数据清理中常见的错误之一。解决方法很简单:

  1. 检查、强制转换和转换数据类型
  2. 通过在项目的各个阶段实现检查以验证数据类型来实现自动化。

例如,假设像order date这样的DateTime变量被存储为字符串。在这种情况下,显然需要将其转换为DateTime数据类型,以启用计算和分析。

了解数据库可以使用哪些数据类型以及可以转换为哪种类型(如下面的矩阵所示),将成为非常有用的知识。

图片来自learn.microsoft.com

数据中存在重复是最常见的错误。它通常来自错误的连接或合并,并最终导致记录数量增加。许多数据科学家在数据上没有进行后期检查或后期检验,以确保数据中没有重复。不要成为其中一员!

删除数据:

  1. 将其分组,以便自动重复数据删除
  2. 在分析的每个阶段添加检查,以防止不必要的重复

如果你正在使用SQL,这里有更多关于重复数据删除和其他常见SQL编码错误的内容:https://bit.ly/48fVzb6

以上五种错误有什么共同之处?它们主要涉及对数据的手动检查,然后进行手动修复。解决方案现在变得显而易见:为什么不尽可能地自动化呢?

正如我之前所说的,软件开发人员有一个叫做单元测试的概念。它确保他们的工作符合他们试图构建的特性的要求。你应该在数据科学中采取同样的做法。具体来说:

  • 减少错误——创建脚本,自动化在整个流程的每个步骤中重复出现的所有数据清理任务。
  • 使流程可复现——记录数据清理流程,以确保团队中的每个人(包括你自己!)都知道正在使用的业务规则逻辑,并且可以重复执行。

实施你在这里学到的知识,你就走上了成功的数据清理之路。没有必要一遍又一遍地犯这些错误。它们令人尴尬,但也很容易避免。

我知道数据清理并不像创建漂亮的图表或ML模型那样令人兴奋。但是所有的数据科学家都花费大量时间(而且是相当大的一部分,说实话!)来进行数据清理。没有它,数据科学项目的其他每个阶段都不存在。因此,首先要做基础工作,掌握数据清洗。只有在此之后,你才能学习其他更有趣的数据科学任务。

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Nathan Rosidi
翻译作者:Dou
美工编辑:过儿
校对审稿:Jason
原文链接:https://blog.stackademic.com/data-cleaning-101-avoid-these-5-traps-in-your-data-c31d5cb08a56