如何玩转数据科学面试之统计篇

如何玩转数据科学面试之统计篇

对于那些即将从事或者正在数据科学工作的人来说,统计学可能是你需要学习的,但同时也是最令人恐惧的知识领域。这篇文章的目的是将您需要了解的知识精简总结为有限的具体问题,技术和公式。

当然,打算长期从事数据科学是一个雄心勃勃的目标,除了以下我所提及的统计知识,我仍然希望在你的整个职业生涯中继续学习统计概念和技术。但是,我的目标是为你提供一个起点,以帮助你完成面试并以尽可能短而轻松的过程来实践数据科学。我将在每个部分的结尾处提供关键术语和资源的总结以供进一步阅读。

概率 (Probability)

概率是统计的基础,并且经常出现在面试中。概率是值得学习的基础知识,不仅因为它可以使你回答出面试官喜欢问的典型的关于可能性的脑筋急转弯问题,而且还可以增强和巩固你对所有统计信息的理解。

概率与随机选择有关。经典的例子是掷硬币和掷骰子—概率为您提供了一个框架,用于确定你希望在一定次数的掷投中, 掷出6的次数,或者投掷十次硬币硬币却没有正面朝上的可能性。尽管这些示例可能看起来很抽象,但它们实际上是分析人类行为和涉及非确定性过程的其他领域的重要思想,因此对数据科学家至关重要。

我赞成学习或重新学习概率的方法是从组合学开始,这样可以为随机过程的行为提供一些直觉,从而进一步介绍如何从这些过程中得出期望和方差等概率指标。熟悉这些知识点将使你通过最基本的数据科学面试。

为了专门为可能会被问到的概率问题类型做准备,我会找到一些示例问题(这是一个合理的列表,但还有很多其他问题),并在白板上进行处理。练习制作概率树,以帮助可视化和思考问题。

关键词:随机变量,连续变量与离散变量,置换,组合,期望值,方差

概率分布 (Probability Distributions)

与上述主题密切相关的是概率分布。概率分布只是描述随机变量的单个观察值等于特定值或范围的可能性的分布。换句话说,对于任何给定的随机过程,我们拟定了一个可能的值范围,从而得出一次随机过程的值落在该范围的可能性。概率分布为随机过程中所有可能值给定了对应的概率值。

与概率一样,了解分布是理解推论和预测统计的先决条件,但是你可能还会在面试中遇到专门有关它们的问题。最典型的示例是:您有类似于X的流程-您将使用哪种分布对该流程进行建模?回答这些类型的问题需要将随机过程映射到合理的分布。

关键词:概率密度函数,累积分布函数,偏度,峰度,均匀分布,正态(高斯)分布

中心极限定理和假设检验 
(The Central Limit Theorem and Hypothesis Testing)

当你掌握了概率和分布,就可以集中精力研究科学家的推理方式。关键的见解是,一旦有了描述概率分布行为的工具,就可以将用于汇总数据的描述性统计数据(通常只是均值)建模为随机变量的集合。

有一个定理告诉我们,给定足够大的样本,随机变量的均值将变为正态分布。这称为中央极限定理(Central Limit Theorem , CLT)。

使用CLT,我们可以评估给定均值来自特定分布的可能性,这一想法使我们能够检验假设。例如,我们可能有一组人的身高的平均值,并想检验这一假设是否来自一个平均高度大于6英尺的随机过程。知道均值是正态分布的,就可以评估这一命题,并拒绝或不能拒绝我们的假设。

关于假设检验的访谈问题将是关于将某些场景映射到适当的检验,或者是关于假设检验的一些关键思想的阐述:p值,标准误等。获取一些样本数据集,并尝试提出一些实际问题,然后阐明假设并选择可以评估它们的测试。假设您必须向面试官证明这些决定的合理性,并据此进行解释。

关键词:中心极限定理,样本统计量的分布,标准误差,p值,一尾与二尾检验,一类和二类误差,T检验,其他假设检验

随机化和推论
(Randomization and Inference)

继续上述想法,测试人口平均高度等于6英尺的假设是合理的,但是作为数据科学家,你可能对因果问题更感兴趣。也就是说,你想知道X是否会导致Y。

因此,例如,一个类似以下问题的问题:“住在加利福尼亚会让你身高更高吗?”更像是科学家想要回答的问题。天真的方法是测量加利福尼亚州的人的身高,并检验以下假设:他们的平均身高大于非加利福尼亚人的平均身高。但是,不幸的是,简单地测量和比较观察到的数据将总是对真实的因果效应产生偏差和不正确的估计。在此示例中,有很多与居住在加利福尼亚州相关的事情也会影响人们的身高,因此我们实际上不知道居住在加利福尼亚州是否会使人长高,或者这些其他事情是否有责任。

解决的办法是随机化。我们可以随机分配人们居住在加利福尼亚或不居住在加利福尼亚,然后测量这些人的身高。这确保了居住地是唯一在两组之间系统地不同的事物,因此身高的任何差异都必须是居住在加利福尼亚州的结果。

这就是为什么企业进行实验,或者说进行A / B测试称为“实验”的原因。当你想了解决策或产品对业务指标的真正因果关系时,随机实验是对结果充满信心的唯一且唯一的方法。

与概率或分布不同,在非常专门的角色之外,面试的任何部分都不太可能关注因果关系。就是说,了解关联为什么并不表示因果关系,以及何时需要进行真正的随机化测试而不是使用观察数据非常重要,这肯定会成为数据科学访谈过程中的主题。虽然大部分读者在这方面的准备工作可能仅限于阅读,而不是白板或真正解决问题的方法,但这仍然非常重要。

关键词:随机化,因果关系,偏见,自我选择,概括性,潜在结果,鲁宾因果模型

预测与机器学习
(Prediction and Machine Learning)

最后,预测也是统计学中重要的一环。这是很多人最兴奋的东西-它包括图像识别,视频推荐,网络搜索和文本翻译等各种主题。显然,这是一个很大的领域,但我假设你是在面试更宽泛的职位,在这种情况下,你不应该局限于任何领域的专业知识。

相反,你希望能够处理面试官向你抛出的任何特定预测问题,并提供合理的方法来开始解决该问题。通常,这意味着你需要准备好讨论如何选择模型,评估模型的有效性,然后对模型进行改进。在面试时,我将问题分为三个步骤。

选择模型时,主要基于以下因素来做决定:结果变量的类型和分布,因变量和自变量之间的关系的性质,所拥有的数据量以及所需的可解释性水平。再说一次,这里没有正确的答案(尽管常常有错误的答案),所以你只想就你将要做出的决定及其隐含的权衡取舍进行明智的讨论。

你可能还会被询问要在模型中包括哪些类型的功能作为自变量(predictor)。这主要是商业领域知识的一种练习:与其说是统计,不如说是对行业的了解以及哪些数据有可能预测的结果。讨论也可能会涉及到feature engineering,其中涉及对如何以及何时转换变量以及使用数据驱动的方式选择预测变量的一些直觉(即正则化,降维和自动特征选择)。

评估模型是一种相对简单的技术,涉及用于验证模型并缓解任何过度拟合问题的保持数据集。关于该主题的wiki可能足以作为考量的标准。此外,你还应该了解各种评估指标:准确性,ROC曲线,混淆矩阵等。这些东西的开放性要小得多,这里就不做详细介绍了。粗略地理解为什么必须使用保留集,足以满足不同评估指标的需要。

第三步将是改进,主要是对feature engineering主题以及是否有必要收集更多数据的决策进行重新哈希。面试时,请确保你为对模型的第一次尝试留出了进行改进的空间-否则,你将难以回答不可避免的后续措施,以求改进。

关键词:回归与分类,线性与非线性,有监督与无监督,特征工程,交叉验证,ROC曲线,精确调用,偏差方差折衷,提升,装袋

请不要死记硬背任何模型

我概述了一种用于数据科学采访的统计学习方法,该方法从基础开始,逐渐发展为更先进的技术。这不是随心所欲的-这是因为了解数学构造块将使您能够有效地推理不同的模型,做出正确的决策,并聪明地谈论以前从未想过的主题或技术。

相反的方法(不幸的是,我本人和其他人尝试过)是从金字塔的顶部开始,只是记住不同的技术。由于你缺乏在上下文中理解大量孤立想法的能力,因此这是非常无效的,因为你缺乏将所有内容粘合在一起并推理出新想法的能力。所以请不要这样做。从概率开始,移至分布,然后进行推论和预测。我保证,这样的方法可以让你更轻松。

再多讲一点:时间序列,贝叶斯

本节仅重点介绍我没有介绍的内容。我已经讨论了相当传统的推理和预测方法,但没有涉及两个大范围的统计数据,它们对这些问题的处理方式截然不同。

  • 一种是时间序列数据分析,随着时间的推移对数据进行研究,以及在数据生成过程不是静态时需要应用的特殊技术。
  • 第二个是贝叶斯统计,它通过采取将域的先验知识纳入概率评估的决定,采用了完全不同的统计方法。这两个领域都很重要且值得了解,但是对于典型的通才面试而言,在这两个领域中走得很深很不寻常。

原文作者:Carson Forter
翻译作者:Chen
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://towardsdatascience.com/how-to-ace-data-science-interviews-statistics-f3d363ad47b