我总结了2021年,人们对于数据科学的几个误解

我总结了2021年,人们对于数据科学的几个误解

目录

  • 引言
  • AB 测试(AB Testing)只和显著性有关
  • 只查看模型误差(Model Error)& 准确度(Accuracy)
  • 不会使用SQL也可以
  • 概括
图源:Unsplash 摄影:Isabela Kronwmberger

引言

数据科学家(Data Scientist)对公司和职位本身的期待非常大。有些期待会变成对职位本身的误解,从而导致压力和不解。本文将从我的个人经历出发,讨论你可能也遇到过的五个误解,以及你可能遇到的真实情况; 本文适用于初级到高级的数据科学家。那我们就开始深入探讨 2021 年人们对于数据科学的几个误解,为你 2022 年的数据科学职业生涯作准备。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
数据科学家应该看的4部电影——我们要如何有责任地使用数据?
数据科学家面试,我被问到这六个问题
如何征服数据科学面试中的Python编程考试
基于真实数据,公司是如何用数据科学预测用户差评的?

AB 测试(AB Testing)只和显著性有关

图源:Unsplash 摄影:Markus Winkler

数据科学家可能会沉浸在统计数据中,从而忽视公司业务目标。AB 测试是数据科学家可能会使用的领域之一。虽然,了解并执行数据统计工作,通常是他们工作的一部分,也在他们的预期之内,但如果过分关注 p 值本身,可能会导致偏离总体目标。

WHAT-NOT-TO-DO:

比较测试组与对照组时,只看显著值/p 值

WHAT-TO-DO:

比较测试组与对照组时,要看 p 值、样本大小以及测试持续时间。在这种情况下,AB 测试才有意义,但它并不会随着时间的推移而保持稳定。

当你不仅仅评估 p 值时,你可以确保你的测试得到了充分处理,并且能够经受住时间的考验。除了测试特征之外,你还需要关注这些指标对于一般测试是否是有意义的。例如,如果你正在整合一个新产品,你需要查看可以显示业务增加的指标,例如:

  • 收入(Revenue)
  • 用户留存率(Retention)
  • 参与度(Engagement)

你还需要确保改变数据科学模型不会影响业务进度,也不会对业务造成负面影响。

只需要查看模型误差(Model Error)& 准确度(Accuracy)

图源:Unsplash 摄影:Nicolas Horn

与上述观点类似,该误解是因为,它只能证明你的模型很精确,并不意味着你的模型非常有用。

WHAT-NOT-TO-DO:

  • A. 该模型在区分好用户和坏用户方面的准确率为 94%

(识别用户的好坏很可能没有用,因为你无法根据结果执行可操作的流程,并且没有明确定义)

  • B. 该模型对于公交车到站时间的平均绝对误差(MAE)为 4 分钟

(MAE 可能较低,但如果它一直偏向某个数值,那么对于那些不想在公共汽车站等很久,并希望早点到达目的地的客户来说,这个模型可能发就没有什么用了)

WHAT-TO-DO:

  • A. 该模型将购买产品较多的客户与不购买或很少购买产品的客户进行分类,准确率高达94%

(通过这种方式,你可以识别消费较高的用户特征,看看是否可以将这些特征应用于消费较低的用户,例如,如果人们倾向于点击 iPhone 通知而不是 Android通知,也许是因为 UI (用户界面)体验不同,你需要解决这方面的问题)

  • B. 该模型的 MAE 为 4 分钟,但现在该指标已针对更多值进行了优化,倾向于早到而非晚到

(通过这种方式,虽然模型总体准确度没有差别,但在实际应用方面更有优势)

正如你所看到的那样,除了准确性或误差之外,你还需要确定指标的方向,以及你的预测是否可用于改进。

不会使用SQL也可以

图源:Unsplash 摄影:Caspar Camille Rubin

由于数据科学的课程更侧重于数据科学本身以及机器学习,因此 SQL 常常被大家忽视。为了成为一名更优秀的数据科学家,你需要学习 SQL,这样你就不用边工作边学习。

WHAT-NOT-TO-DO:

期望SQL相关的工作都由他人帮你完成了,或者希望用于模型的数据已经建立好了。

(你很可能需要用 SQL 查询公司的数据库,获取训练数据)

WHAT-TO-DO:

在学习数据科学的同时了解 SQL,并选修多门课程

(你还需要学习如何用 SQL 帮你在模型中查询结果,通常情况下,你的预测会存储在可查询的表格中)

在有一些工作中,你不需要使用 SQL,但通常情况下,你还是会使用SQL,不过当你学习机器学习算法时,SQL就不是重点了。慢慢来,这样你就不会着急,尤其是在做第一份数据科学工作时,你会更加得心应手。

概括

如你所见,人们对数据科学职业存在一些误解。我是在今年的工作中了解到这些内容,而不是开始工作之前就知道。当然,还有更多误解,但我希望这篇文章可以帮助你纠正或改进你对数据科学的误解。

总而言之,以下是一些常见的数据科学误解,你也可以从中学习:

  • AB 测试(AB Testing)只和显著性有关
  • 只查看模型误差(Model Error)& 准确度(Accuracy)
  • 不会使用SQL也可以

希望你觉得我的文章既有趣又有用。如果对上述误解有任何想法,请随时在下面发表评论。你认为我们还可以讨论哪些误解?我可以进一步解释这些内容,但我希望我能够分享我个人经历过的一些更独特的误解。

感谢你的阅读!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Matt Przybyla
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://towardsdatascience.com/top-data-science-misconceptions-i-learned-in-2021-e4529f07f368