你如何知道你的分析是“正确的”?

你如何知道你的分析是“正确的”?

如果你一直和数据打交道,那很可能有人告诉过你”这个数据看起来不太对……“

在我还是数据分析师小白时,这句话让我非常焦虑。工作时我一直没有信心,并且总认为,如果分析的用户说我的数据不对,那么肯定是哪里出错了。我一直以为,如果我再小心谨慎细致一些,就不会出现这些错误了。

图源:Unsplash 摄影:Avel Chuklanov

虽然我仍然会反复检查我的公式和数据处理工作流程,但现在,我意识到,在向利益相关者展示报告之前,尽最大努力验证最终结果,对于增强信心和获得信任是非常重要的。

这个道理看起来非常显而易见,但是如果输出结果为 100 万条记录,你要如何验证结果?如果你不确定该怎么做,请继续阅读。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
新兴数据职位:应用数据科学家的工作职能
DS vs DE:数据科学家与数据工程师的薪资对比
Pandas和SQL,数据科学家应该用哪个?
如何准备DS数据科学家面试?

通过源系统验证输入的数据

数据行业有句话叫:垃圾进,垃圾出。因此,将初始数据与原始数据进行比较非常重要。在我目前所做的工作中,这意味着我要根据原始 ERP 系统,检查来自数据湖查询结果中的记录计数、数据类型、和最新加载日期。这种检查相对来说不怎么耗时,也非常简单,但如果你在查询或数据湖中发现错误,这个检查可以为你节省大量时间——这样你就可以先修复错误,然后继续进行分析,因为你知道你正在检查有意义的分析。

在执行这一步时,我发现了一些项目中的问题,包括:意识到我的查询存在记录限制,而我不希望有这样一个限制;看到源系统中包含的数据湖中缺少某些列;注意到数据库过去几个月没有加载新数据;发现了数据类型的差错。

检查数据汇总统计和分布

我发现,在分析中检查多个点的汇总统计数据(如最小值和最大值、平均值等)很有用。所以在一开始,我会检查这些统计数据,找到异常值,并确保所有值都是正确的数据类型。此外,绘制变量分布可以帮助你快速了解数据外观,从而帮助你快速识别重大问题。

在分析项目结束时,检查汇总统计数据,你可以查看新变量的统计数据是否对最初数据和对最终结果的预期有意义。例如,如果你创建了一个指标,如“调查竞争的百分比”,但百分比超过了 100% ,那么你就知道需要检查公式或格式。

运用批判性思维

很重要的一点是,你必须批判性地思考你的分析结果。

尽管如此,有时我会从其他人那里收到不符合逻辑的数据。我曾经受到过一份生产数据,如果这个数据真实,我们的公司可能就要倒闭了。想要批判性地思考你的分析结果,需要真正了解你的数据及其用例。

如果你不太了解你正在处理的变量,或者预期值应该是多少,那么你应该与业务方面的人合作,以更好地了解对数据/指标的期望。

与主题专家合作

如果你是一名数据分析师或数据科学家,你不可能对你得到的所有数据都了如指掌。因此,向该领域的专家、或与该数据打交道的人提出大量问题,对正确的分析是非常重要的。

有时,数据的专家不是直接加入项目。找到这些人可能需要通过人际关系或者网络交流。但是,一旦你找到了能够解释某些维度的含义的人,他们的知识可以为你节省无数时间。

图源:Unsplash 摄影:Windows

我还发现,记录这些业务知识有助于提升分析团队的技能,并更快地分发信息。无论是做重点笔记、制作流程图、创建关系数据库图表还是其他什么,你都可以真正帮助其他对你正在处理的数据感兴趣的同事。(同时还可以减少自己分析时出现问题的数量!)

与相似的分析进行比较

这件事可能因项目而异,但总体而言,你希望对最终结果进行某种检查,尤其是你之前从未使用过这些数据的时候。

以下是我比较项目结果的一些示例:

  • 将分组的汇总结果与源系统数据的汇总结果进行比较
  • 确保我的分析结果在预期的数量级(例如,销售额为数百万还是数十亿)
  • 让同事复制分析(如果分析很短),并比较结果
  • 查找现有的图表,对比检查数据。检查结果不会完全相同,但同样可以提供大致范围内的答案

结论

我想始终对自己的分析充满信心,因为结果经常会用来制定业务战略决策。这也是为什么我在整个数据分析过程中,会运用多种渠道来验证我的分析是否正确。

希望本文列举的策略可以帮助你自信地说“是的,我的分析是正确的”。祝你在未来的数据项目中好运连连!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

图源:Unsplash 摄影:Julian Lozano

原文作者:Megan Dibble
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/how-do-you-know-your-analysis-is-right-3399f7c48971