7 个被随机性愚弄的陷阱

7 个被随机性愚弄的陷阱

随机性 就在我们身边。它的存让所有预测分析专家心中恐惧如果一个进程是真正随机的,那么它从分析的角度是不可预测的 。

随机性是指在一个系统中不存在的规律,顺序,连贯性,和可预测性。

不幸的是,我们经常因为在系统任何时候出现明显的秩序时而上当将他作为随机事件 。即使在统计意义上有弱点的情况下,一些人甚至还发展理论来解释这样的“秩序”规律。但是,如果事件是真正随机的,那么任何关联性都是纯属巧合而不是因果关系。我记得我在读研究生时有一个的错误的科学数据分析的小玩笑是跟这个概念有关的:“

两个点在一个单调序列中显示的是走向。

三个点单调序列中显示的是趋势。

四个点在一个单调序列就可以定义一个理论了。”

意思很清楚,就是小心不要被一个随机过程中貌似明显的秩序给欺骗,还为此开发一个理论来解释他的随机数据。

随机性最有可能被通过理性思考的现出原形的一种方法是在“小数现象”中。例如,假设我问12个人他们最喜欢的橄榄球队,他们都说巴尔的摩乌鸦队。那是一个统计上的巧合,一种民族感情,还是选择效果呢(因为所有问的12人都住在巴尔的摩)?答案很可能是后者。好吧,这例子可能太明显了。因此,考虑下面这个不太明显的例子:假设我有一个公平的硬币(我抛硬币时头,尾同等可能)。以下3个序列(每一个都用公平的硬币掷12次)哪个序列是假的序列(即,我在电脑上手工输入的序列)?(a)HTHTHTHTHTHH

(b)TTTTTTTTTTTT

(C)HHHHHHHHHHHT

(d)上述中无。

在每一种情况下,一个抛硬币正面被列为“H”,一个抛硬币反面被列为“T”。

答案是“以上(四)无”。

上述序列中没有一个是手动生成。他们分别来自随机掷硬币的母序列中提取所有的实际序列。我承认,我试图用这3个不像随机的子序列欺骗你(这引起所谓的选择效应的统计偏差)。小数现象在这里是显而易见的 – 事实是当只有12掷硬币时,任何“不可能的结果”的发生可能导致我们(错误地)认为这是统计上显著。相反的,只有在如果我们看到了答案(b)继续为几十个硬币投掷(全是反面 )时,那么这才是真正显著。

所以,让我们用另一个样本问题再试(#2),其中我真的生成了三个序列(即一个我在电脑上手动键入,试图创建自己虚假的顺序的例子)。这些掷50次硬币的序列中哪个是假的序列?

(a)HTHHTHHTTHHTTTHTHTHHHTHTHTHHHTTHTTTHTHTHHTTHTHTHTT

(B)HHHHHHTHTHHHHHTTTHTTTTHTTHHHHTHHHHHTHTTHHHTHHHHHHH

(c)THTTTTTTHTTTTTTTTHHHTTTTHHTTTTHHHTHHTTHHTTTTTHTTHH

对于两个实(非假的)序列,我使用的随机数生成器生成的序列。随机数发生器(通用于几乎所有的科学程序设计)产生0和1我简单地标记数字比0.5大时为“H”,每当数随机数小于0.5时为“T” 。

例题#2的答案是 …被贴在这篇文章的底部(到时候看完文章你可能已经猜对了)。

“被随机性愚弄”的话题在我最近读的刊登在  图灵奖获得者1966年至2013年 (一个tableau gallery的连接)中想到的。

本文列出了有关奖项的获奖者61许多有趣的统计事实。那篇文章提供了一个有趣的 内置交互式数据可视化工具Tableau让您可以探索这些统计数据,其中包括:每个获奖者的出生年份,年龄奖,国籍,性别的时间,甚至星座!作为一个数据科学家和天体物理学家,我发现星座被包括进去 是令人不安的。然而,笔者 原帖 也承认,这是在开玩笑 。

当你看一下数据,你会看到61名图灵奖获得者中有10人属于一个星座(摩羯座),只有 2人是另一个星座(天蝎座)出生的(事实上,这样的两个例子是存在的)。这些问题出现,然后:这种明显的相关性有没有显著性?是否有真正的秩序在这里而不是随机性?摩羯座是否真的是五倍于天蝎座的几率赢得未来的图灵奖?

当然,对这些问题的回答是,占星术统计分布是一个纯粹的随机过程,占星术没有统计显著性 (或天文)。但是,为了证明这一点,这倒不失为一个随机生成器的有趣练习 。

所以,我(用1-12对应12星座)生成的随机出生几个月的61个人(为简单起见,我们假设所有的出生月份是同样可能,从而忽略了不同月份的可变长度)。我重复了这个模拟10万次(这几乎肯定属于数据分析科学中的“矫枉过正”)。然后我检查了多少次在10万个模拟做了一些下面明显的相关性的存在:

1
我们发现,61中有10个以上出生月份(星座)相同:答:模拟中 32%几率
2
我们发现,61人中2个或以下在出生于相同月份:答: 模拟中80%
3
我们看到的“相同月份最多的数量”与“相同月份最少的数量”的比率大于等于5:答:模拟中40%
4
我们看到的“相同月份最多的数量”与“相同月份最少的数量”的比率大于等于4.5:答:模拟中49%因此,在统计学上是合理的,我们完全可以预见其中一个两个月是只有两个或以下的获奖者在同月出生。 我们可以看到许多获奖者在人口最多的一个月是人口最少的一个月的五倍,也是在统计上合理的。关于第一个相关性(模拟揭示32%的比例,10个人有相同的出生月份),32%是一个不小的百分比,因此,我们看到在现实生活看到也不奇怪。我们可以从所有的“被随机性愚弄”的讨论中得出什么结论?哪些是我们会落入的陷阱?

我们常常专注于挑出数据中“最有趣”的结果,而忽视了无趣的情况。

这是选择偏差,也就是“后验”统计的例子

(从观察到的事实,而不是从逻辑原则得出)

被随机性所迷惑很容易,尤其是在我们急于建立预测分析模型去为了预测有趣的结果的时候。

这跟生日悖论很像(在仅有23人的人群中,两人具有相同的生日是大约50%)。50-50的平衡点之所以发生在这样一个小数量是因为,当增加样本容量时,相同的生日就变得越来越不可能避免(即,在随机数据的重复图案)。

人们善于看到数据中的模式和相关性,

但相关性不意味着因果性。

数据集越大,

你就越有可能会看到“没有规律”这个规律!

我们在图灵奖的数据中看到的就是

“小数现象”的证据。

当需要挑选由人生成的“随机”的统计分布时(相对于由算法生成的分布),我们往往会混淆“随机性”与“貌似随机性”。

一个分布貌似是更随机的,但实际上它是更不随机的,因为它的行为有统计上不实际的小方差:大量的非重复值的,但很少有大的重复(即,我们忘记考虑长尾)。例如,在上面的例子#1选项(b)中,第一次掷T后伴随着连续11 T的序列只有2^11 分之一的可能性(在12次投掷硬币的序列中Link中1),在统计意义上这是罕见的,但它仍然在我的实验中发生了!

所以,这把我们带回到我们的问题#2,

其正确的答案是:(a)。

如果这个问题的答案给我们惊喜,这是因为当我们手动生成随机序列(不客观公正的算法的帮助下),或者当我们试图去判断,如果数据串是随机序列,我们很容易落入一些上面列出的陷阱。