如何衡量数据质量

如何衡量数据质量

没有比数据质量相关的数据更重要的了。

衡量数据可能比衡量数据质量更好一些,我建议将质量与生产力和参与度指标结合起来。测量数据的核心可以归结为:

关键数据指标=数据质量+生产力+参与度

如果你想了解更多关于数据分析的相关内容,可以阅读以下这些文章:
一篇文章带你了解探索性数据分析
8 种数据挖掘技术,让你成为更好的数据分析师
Python为什么这么火?如何利用Python进行数据分析?
20个常用函数——用Excel做数据分析

为什么要衡量数据质量?

“不能衡量的东西,就不能改进”,老话是这么说的。我觉得不是这样的,过分沉迷于参数很可能会把你引入歧途。

然而,有充分的理由来衡量数据关键指标。

1 因为有些数据真的很重要

如果你是一家金融科技公司,可能会被要求向监管机构提交数据,或者你会使用数据来决定谁可以注册你的产品。如果你是一家SaaS公司,那你可能拥有一些数据来决定用户在月底会收到哪些账单。

2 因为衡量数据质量有助于为数据团队设置高标准

早上9点C级团队查看KPI时,Looker仪表板没有更新,或者在你发现数据问题之前,利益相关者经常告诉你数据的问题,这些例子都降低了对数据的信任。测量数据质量可以帮你在这方面做到科学,并积极主动地改善控制措施。

如果你有一个分析工程师团队,你会希望他们致力于最重要的事情。对数据质量有一个清晰的理解不仅可以帮助你发现做得好的领域,还可以突出你可能需要改进的领域。

你应该使用哪些指标?

关于减少数据停机时间或最大限度地减少最终用户发现错误的指标有很多方法,但这些都不实用,因为你可以每周跟踪这些指标。相反,你应该考虑具体的、可测量的指标,你可以跟踪并客观地评估你自己和你的团队。

我建议将它们分成三类:

  • 质量:这些指标可以帮你了解数据的质量和及时性,以及在出现问题时发现问题的能力。
  • 生产力:花在提高数据质量上的时间是一把双刃剑,必须与其他战略性工作相平衡。你应该跟踪团队在与数据质量相关的工作上花费了多少时间。
  • 参与度:仪表盘和数据模型经常被抛在一边,没有人考虑谁在使用它们。用户粘性指标有助于确保每个人都对所创造的内容负责。
图片来自作者

我最喜欢的有:

数据模型在SLA中更新的天数百分比:我喜欢这个,因为它可以清楚地说明什么时候可以使用数据。如果你知道领导每天早上9点都会查看KPI仪表板,那么通过设置SLA,你和你的团队就可以在那时准备好数据。

#每周数据测试失败:我之前写过,让数据测试失败类似于破窗理论。将测试失败的问题摆在你的团队面前,他们更有可能解决这些问题,而不是接受几十个或数百个失败的测试在Slack渠道中无所事事。

仪表板的每周活跃用户:数据人员应该与他们创造的价值保持一致。做到这一点的最佳方法之一是密切关注谁在使用数据产品,在许多情况下,这是一个仪表板。不仅可以让你看到人们是否在使用你的工作,而且你还可以与团队成员(如分析工程师或产品团队)分享成功,向他们展示他们在数据方面的上游工作是有回报的。

真正令人兴奋的是你开始围绕这些指标构建工作流程的时候。

想提高数据测试覆盖率吗?

制定这样的规则:每当有人发现测试没有发现的数据问题时,他们就应该添加一个新测试。

想让数据模型运行得更快吗?

制定这样的规则:每当有人向Github推送代码时,你将自动检查它是否影响数据模型的运行,如果有影响,就会发出警报。

你也可以安排每周发送指标,让它更有竞争力,让员工负起责任,通过展示你的进步来庆祝成功。

细分是关键

如果你着眼于不同细分市场的数据指标,你会发现它变得更加有趣和可行。

以下部分特别有趣:

图片来自作者
  • 团队:如果你是大型数据团队的一员,你需要将数据质量按团队划分,以了解每个团队的工作情况。类似地,如果你有一个由许多产品团队组成的分散机构,你应该尝试让数据生产者通过共享关键指标来共同拥有数据质量。
  • 关键:并不是所有的数据都应该被同等对待。只有你和几个亲密的同事使用的数据模型上的错误,可能与顶级KPI仪表板或支持生产级ML系统的数据服务中的错误产生的影响不同。大多数团队都有方法了解这一点,例如,将数据模型标记为“tier 1”、“critical”或“gold standard”。
  • 时间:你希望能够了解,随着时间的推移你的数据质量是在提高还是下降,以及不同团队之间的情况。
  • 最终用户:按照关键度细分数据模型的方法,你可以细分最终用户。例如,你可以在高管层设置一个过滤器,这样你就可以看到他们使用了哪些仪表板,以及他们是否使用了错误的数据。虽然每个人都应该期待高质量的数据,但通常更重要的是要特别关注很多高级人员在使用的数据。

如何开始

从一些指标开始并坚持下去。

优化可访问的数据,避免创建过多的手工工作,例如让人们在一周内投入时间解决数据问题。这太主观了,你的团队会感到厌倦。

保持一致,并定期查看指标。

比如你可以在每两周召开一次的数据团队会议上回顾它们,或者安排每周五在Slack上发一份邮件。无论哪个,经常把它放在人们面前,这样它就不会是另一个不被使用的闪闪发光的物品。

如果你有一些关于如何衡量数据质量的故事或想法,我们很乐意听到你的声音,欢迎在评论区留言。你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Mikkel Dengsøe
翻译作者:过儿
美工编辑:过儿
校对审稿:Miya
原文链接:https://medium.com/@mikldd/how-to-measure-data-quality-cc3d81dd98be