每个数据科学家/分析师都应该知道的20个统计概念!

每个数据科学家/分析师都应该知道的20个统计概念!

有没有想过数字是如何讲述故事的?这就是统计学的全部意义——通过理解数字来更好地理解事物。

把统计学看作是学习数据科学的基础知识。你从基础开始,很快就可以阅读和写作故事,或者在我们的案例中,分析数据并做出很酷的预测!

在这个易于理解的指南中,我们将了解20个关键的统计概念。把这些概念想象成理解数据的构建块。它们就像乐高积木一样,单独看起来很简单,但当你把它们放在一起时,就能创造出令人惊叹的东西。

所以,让我们开始旅程,进入迷人的统计世界,在这里,数字讲述故事,我们在这里倾听和理解。如果你想了解更多关于统计的相关内容,可以阅读以下这些文章:
每个数据科学家都应该避免的十大统计错误
数据科学之统计:终极指南
这15个统计知识测验题,你能答对几个?
数据科学家须知:统计学中的5个悖论

1.总体和样本

总体是被研究的个体或对象的全部集合。样本是总体的一个子集,用来对整个总体进行推断。

示例:考虑一所拥有10,000名学生的大学。这10,000个学生代表全体。如果我们从这所大学中选择500名学生,分析他们的学习习惯,那么这500名学生就构成了样本。

图片来源:作者

2.描述性统计

描述性统计以一种有意义的方式总结和呈现数据。常用的测量方法包括平均值、中位数、众数、方差和标准差。

示例:对于考试成绩的数据集:平均值=75(平均分),中位数=80(中分),方差=100(分数的分布),标准差=10(分数偏离平均值的程度)

3.推论统计

推理统计包括根据样本对总体进行预测或推断。

示例:我们想知道一个国家所有成年人的平均身高。我们不是测量每个人的身高,而是测量500个成年人(样本)的身高,并推断出所有成年人的平均身高。

4.变量类型

变量可以分为分类变量(名义、有序)和数值变量(离散、连续)

  • 示例:名义:颜色(红色、蓝色);有序:具有一定顺序的变量——教育水平(高中<本科<硕士)
  • 离散:离散变量只能取整数值——一个家庭中孩子的数量。
  • 连续:可以取任意浮点值的变量——个体的身高。

5.集中趋势的测量

均值、中位数和众数等测量表示数据集的集中趋势。

示例:{2、3、3、4、5}的平均值=(2 + 3 + 3 + 4 + 5)/5=3。

中位数=3(中间值)。

众数=3(出现频率最高的值)。

6.离散度的测量

范围、方差和标准偏差等指标表明数据的分布情况。

示例:对于数据集{1,2,3,6,7},范围=7-1=6,方差=6.25,标准差≈2.5。

7.相关性

相关性衡量两个变量之间线性关系的强度和方向。

示例:在一项研究中,我们发现学习时间和考试成绩之间存在很强的正相关性(0.9),这表明学习时间越多,分数越高。

8.回归分析

回归分析预测一个因变量与一个或多个自变量之间的关系。

示例:根据面积、卧室数量和位置等特征预测房价。

9.概率

概率量化事件发生的可能性,范围从0(不可能发生)到1(确定发生)

示例:在一个均匀的六面骰子上掷出6的概率是1/6或约为0.167。

10.假设检验

假设检验是基于样本数据评估关于总体的主张或假设的有效性。

示例:通过比较治疗组和未治疗组的恢复率来测试新药是否有效。

11.Z分数

Z分数衡量的是数据点与平均值的标准差,表明它在分布中的相对位置。

示例:在IQ测试中,平均值为100,标准差为15,IQ为130的z分数为2。

12.二项分布

在一系列n个独立实验中成功次数的离散概率分布。

示例:投掷一枚均匀硬币10次,使用二项分布得到7个正面的概率。

13.泊松分布

一种离散概率分布,表示在固定的时间或空间间隔内发生的事件的数量。

示例:假设一个泊松过程,呼叫中心在一分钟内接到的电话数。

14.正态分布

一种对称的钟形分布,常见于自然现象中,有明确的平均值和标准偏差。

示例:人的身高在人群中通常服从正态分布。

15.偏度和峰度

偏度衡量的是概率分布的不对称性。峰度衡量分布的“尾部性”。

示例:正偏斜分布有一个较长的右尾,就像收入分布一样。

16.中心极限定理

该定理表明,给定足够大的样本量,均值的抽样分布将近似为正态分布。

示例:当反复掷一个均匀的六面骰子并计算每次掷出的平均值时,随着掷出次数的增加,这些平均值的分布趋于正态分布。

17.置信区间

从样本数据中得出的一系列值,可能包含真正未知总体参数。

示例:估计成年男性平均身高的95%置信区间。

18.I类和II类错误

  • I类错误:原假设是正确的,却拒绝了原假设。
  • II类错误:原假设是错误的,却没有拒绝原假设。

示例:在审判中,判定一个无辜的人有罪(I类)或宣告一个有罪的人无罪(II类)

19.方差分析

方差分析用于分析样本中组均值之间的差异。

示例:比较三种不同教学方法下学生的考试成绩。

20.卡方检验

统计检验用于确定两个分类变量之间是否存在显著关联。

示例:测试吸烟习惯(是/否)和肺部疾病(是/否)之间的关系。

结论

到此为止!祝贺你完成了这段学习前20个统计概念的旅程。我们已经涵盖了很多内容,从理解数据模式到基于数字做出决策。

请记住,统计学就像侦探的工具箱。它可以帮助你发现真相并解决隐藏在数据中的奥秘。这些概念是将数字转化为有价值真相的关键。

坚持练习和试验,你越是熟悉这些概念,就越能熟练运用这个统计魔杖,快乐的分析!

感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

原文作者:Anmol Tomar
翻译作者:文玲
美工编辑:过儿
校对审稿:Chuang
原文链接:https://anmol3015.medium.com/20-statistical-concepts-every-data-scientist-analyst-should-know-2d28a06a5483