数据科学家最容易被面试的问题:偏差和方差!

数据科学家最容易被面试的问题:偏差和方差!

作者介绍:
Cassie Kozyrkov是谷歌首席决策科学家。擅长领域:统计、机器学习/人工智能、数据、艺术、戏剧、决策科学。

偏差和方差是两个基本的数据科学概念。

什么是偏差?

取决于你在哪里听到这个词。我列出了各种偏差用法的详细清单,以供大家消遣,但在本文中,我们将重点讨论一种特定的偏差——统计偏差。如果你想了解更多关于数据科学面试的相关内容,可以阅读以下这些文章:
Google谷歌数据科学家的面试问题
如何准备数据科学的现场编程面试?
微软数据科学家面试,都问什么SQL问题?
六招小技巧,教你斩获数据科学面试

打靶

如果你是一个优秀的射手,而且你瞄准的是靶心,那么完成后你的靶子会是什么样子?像这样的?

现在想象一下,如果你的目标是有偏差的。你的目标会是什么样子?

到处都是点?不。这就是我们所说的高方差,而不是高偏差。

相反,偏差是这样的:

这一系列的图像是由作者创作的

有偏差的结果系统性地偏离标准,但如果方差低,可能仍会紧密聚集在一起。

在统计学中,偏差是关于系统的不平衡性,而方差则衡量数据的分散程度。

方差是在数据中有更多的分布。没有偏差的高方差是一种无能,平均地散布。这就是为什么当我玩飞镖时,你不想站在我20码以内的任何方向。这足以让你希望我在飞镖的一般方向上有偏差。

从这张图中可以看出,最坏的结果是那些具有高方差和高偏差的结果,而最好的是使它们都保持在低水平。

如果你是因为对机器学习中的偏差-方差权衡概念感到好奇,那么最重要的是要了解最佳模型是没有偏差和方差的。如果你正在训练一个机器学习模型,并且成功地降低了偏差和方差,那么就没有必要谈论权衡了。

但是如果你不能同时改进偏差和方差呢?如果方差降低意味着偏离目标怎么办?为什么会这样?为什么这很重要?大多数认为理解偏差-方差权衡的人为什么实际上完全误解了它?

在关于偏差和方差的系列中,将回答这些问题以及更多问题。

作者高斯马尔可夫。差异太大!

延伸阅读:横向

如果你足够了解方差,我建议你继续阅读我的平行文章,该文章使用冠状病毒案例研究来教你其他类型的偏差:抽样偏差、选择偏差、信息偏差、报告偏差和确认偏差。(链接:https://towardsdatascience.com/were-21-of-new-york-city-residents-really-infected-with-covid-19-aab6ebefda0

延伸阅读:深入

你们可能希望更深入一些,特别是如果你热衷于了解偏差-方差权衡。在这种情况下,请继续关注该系列的其余部分。当你等待下一部分时,你可以获取所有你需要的背景,以便理解它。

下面是一份核心概念清单,假设你在本系列的其余部分中已经理解:

  • 人口
  • 样本
  • 观察
  • 参数
  • 统计资料
  • 估计
  • 估计器
  • 被估量

如果其中任何一个不熟悉,这里有我的方便的词汇指南来帮助你。

链接:https://towardsdatascience.com/statistician-proves-that-statistics-are-boring-4fc22c95031b

如果你对机器学习中的偏差-方差权衡感兴趣,这也是系列的目的所在,那么对ML/AI的这些基础知识略知一二会有所帮助:

链接:https://hackernoon.com/machine-learning-is-the-emperor-wearing-clothes-59933d12a3cc

  • ML/AI 的意义是什么
  • 模型
  • 损失函数

此外,你应该知道每一个的定义:

(链接1:https://towardsdatascience.com/getting-to-know-probability-distributions-cc1dd1e2f22b

链接2:https://towardsdatascience.com/a-field-guide-to-the-most-popular-parameters-d734596c3f26

  • 期望值
  • 随机变量
  • 分布
  • 概率
  • 均值
  • 方差

不用担心!这些概念比大多数人想象的要容易得多。学习快乐!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Cassie Kozyrkov
翻译作者:明慧
美工编辑:过儿
校对审稿:Miya
原文链接:https://towardsdatascience.com/making-sense-of-bias-and-variance-a5e639f6bd86