《如果有一天我变得很有钱》是真的么?

《如果有一天我变得很有钱》是真的么?

你可能和我一样也大概听过这首歌 —— 《如果有一天我变得很有钱》, 就算你没有听过这首歌,你大概也做过这样的梦:👇

你可能也和我一样想过,会不会有一天,就真的梦想成真?这个事情发生的概率有多大?我现在能预知未来么?说到这,我们大概就不得不跟你介绍一个看上去非常 easy 但其实非常牛逼的知识点:

假设检验 Hypothesis Testing

上周六,我司请来的数据高玩为大家讲解了对于数据人来说必须了解的假设检验的相关知识。

之所以选择假设检验这个话题,是因为有数据应用学院的学员反映,在最近春招的面试中经常遇到这部分内容,虽然大家可能曾经接触过假设检验,但是真正是骡子是马拉出来遛遛的时候,还是觉得掌握得不扎实。所以,我们就带大家来go over假设检验的来龙去脉。

什么是假设检验?

顾名思义,假设检验就是用来检验统计假设是否正确的。就像下图所描述的一样,当我们拿到数据之后,会先假设这个数据有什么特点,作出一个统计假设。

一般而言,一个统计假设由无效假设H0和备择假设H1组成,这两者通常是相互排斥的。无效假设通常是假设得到的数据完全是随机的;而备择假设则是假设得到的数据受某些因素的影响。

通常情况下,经过分析之后,选择备择假设的可能性比较大,因为数据一般都是受某些因素的影响的。我们数据分析这一行,就是使用各种方法,分析出数据背后的意义,从而促进商业决策,不然我们花那么多时间分析,分析过后没有什么结果,认为数据是随机的,也是很心塞。

举个例子,假如我们要看一个硬币是否是均匀的。那么,无效假设就是,这个硬币是均匀的,投掷这枚硬币,出现正面的次数和出现反面的次数相同,H0: P=0.5;备择假设就是,这个硬币是不均匀的,投掷这枚硬币,出现正面的次数和出现反面的次数显著不同,Ha: P≠0.5。假如我们投掷这枚硬币50次,40次朝上,10次朝下。所以,根据这个实验结果,我们就会拒绝无效假设,选择备择假设,认为这个硬币是不均匀的。

如何做假设检验?

– 作出假设,包括无效假设和备择假设,这两者是互斥的,如果无效假设是正确的,那么备择假设一定是错误的。

– 制定一份分析计划。这个分析计划通常包括如何使用样本数据来验证符合其符合无效假设还是备择假设,这个评估通常着眼于单个指标的测试。

– 分析样本数据,获得用来分析的统计指标(比如mean score, proportion, t statistic, z-score, etc.)

– 解释得到的结果,根据结果选择适合的假设

那么,我们做决策的时候有没有可能出现错误呢?当然。

假设检验中的错误主要有两种:

– 第一类错误:当无效假设正确的时候,拒绝了无效假设。通常把犯第一类错误的概率称为显著性水平,用α来表示。

– 第二类错误:当无效假设错误的时候,反而接受了无效假设,通常用β来表示犯第二类错误的概率。

犯第二类错误造成的损失通常比犯第一类错误造成的损失大,所以犯第二类错误的概率越低,假设检验的准确率越高。我们将不犯第二类错误的概率称为the Power of the test,就是下图中红色的阴影区域。

 如何提升The Power of the Test?

– 增大样本数据的大小(n)。样本数据越多,power越大。

– 提升显著水平(α)。显著性水平越高,power越大。

– 真实数据中的参数值与无效假设中所选择的参数值之差越大,也就是效应大小越大,power越大。

那么,了解了这些基础知识,假设检验在面试中通常如何考察呢?

如上这些基础知识和面试题只是给大家小试牛刀,以后还会为大家准备更全面的知识汇总和面试真题,期待你的关注哟~