7 个被随机性愚弄的陷阱
随机性是指在一个系统中不存在的规律,顺序,连贯性,和可预测性。
两个点在一个单调序列中显示的是走向。
三个点单调序列中显示的是趋势。
四个点在一个单调序列就可以定义一个理论了。”
意思很清楚,就是小心不要被一个随机过程中貌似明显的秩序给欺骗,还为此开发一个理论来解释他的随机数据。
(b)TTTTTTTTTTTT
(C)HHHHHHHHHHHT
(d)上述中无。
在每一种情况下,一个抛硬币正面被列为“H”,一个抛硬币反面被列为“T”。
答案是“以上(四)无”。
上述序列中没有一个是手动生成。他们分别来自随机掷硬币的母序列中提取所有的实际序列。我承认,我试图用这3个不像随机的子序列欺骗你(这引起所谓的选择效应的统计偏差)。小数现象在这里是显而易见的 – 事实是当只有12掷硬币时,任何“不可能的结果”的发生可能导致我们(错误地)认为这是统计上显著。相反的,只有在如果我们看到了答案(b)继续为几十个硬币投掷(全是反面 )时,那么这才是真正显著。
所以,让我们用另一个样本问题再试(#2),其中我真的生成了三个序列(即一个我在电脑上手动键入,试图创建自己虚假的顺序的例子)。这些掷50次硬币的序列中哪个是假的序列?
(a)HTHHTHHTTHHTTTHTHTHHHTHTHTHHHTTHTTTHTHTHHTTHTHTHTT
(B)HHHHHHTHTHHHHHTTTHTTTTHTTHHHHTHHHHHTHTTHHHTHHHHHHH
(c)THTTTTTTHTTTTTTTTHHHTTTTHHTTTTHHHTHHTTHHTTTTTHTTHH
对于两个实(非假的)序列,我使用的随机数生成器生成的序列。随机数发生器(通用于几乎所有的科学程序设计)产生0和1我简单地标记数字比0.5大时为“H”,每当数随机数小于0.5时为“T” 。
例题#2的答案是 …被贴在这篇文章的底部(到时候看完文章你可能已经猜对了)。
“被随机性愚弄”的话题在我最近读的刊登在 图灵奖获得者1966年至2013年 (一个tableau gallery的连接)中想到的。
本文列出了有关奖项的获奖者61许多有趣的统计事实。那篇文章提供了一个有趣的 内置交互式数据可视化工具Tableau让您可以探索这些统计数据,其中包括:每个获奖者的出生年份,年龄奖,国籍,性别的时间,甚至星座!作为一个数据科学家和天体物理学家,我发现星座被包括进去 是令人不安的。然而,笔者 原帖 也承认,这是在开玩笑 。
当你看一下数据,你会看到61名图灵奖获得者中有10人属于一个星座(摩羯座),只有 2人是另一个星座(天蝎座)出生的(事实上,这样的两个例子是存在的)。这些问题出现,然后:这种明显的相关性有没有显著性?是否有真正的秩序在这里而不是随机性?摩羯座是否真的是五倍于天蝎座的几率赢得未来的图灵奖?
当然,对这些问题的回答是,占星术统计分布是一个纯粹的随机过程,占星术没有统计显著性 (或天文)。但是,为了证明这一点,这倒不失为一个随机生成器的有趣练习 。
所以,我(用1-12对应12星座)生成的随机出生几个月的61个人(为简单起见,我们假设所有的出生月份是同样可能,从而忽略了不同月份的可变长度)。我重复了这个模拟10万次(这几乎肯定属于数据分析科学中的“矫枉过正”)。然后我检查了多少次在10万个模拟做了一些下面明显的相关性的存在:
我们常常专注于挑出数据中“最有趣”的结果,而忽视了无趣的情况。
这是选择偏差,也就是“后验”统计的例子
(从观察到的事实,而不是从逻辑原则得出)
被随机性所迷惑很容易,尤其是在我们急于建立预测分析模型去为了预测有趣的结果的时候。
这跟生日悖论很像(在仅有23人的人群中,两人具有相同的生日是大约50%)。50-50的平衡点之所以发生在这样一个小数量是因为,当增加样本容量时,相同的生日就变得越来越不可能避免(即,在随机数据的重复图案)。
人们善于看到数据中的模式和相关性,
但相关性不意味着因果性。
数据集越大,
你就越有可能会看到“没有规律”这个规律!
我们在图灵奖的数据中看到的就是
“小数现象”的证据。
当需要挑选由人生成的“随机”的统计分布时(相对于由算法生成的分布),我们往往会混淆“随机性”与“貌似随机性”。
一个分布貌似是更随机的,但实际上它是更不随机的,因为它的行为有统计上不实际的小方差:大量的非重复值的,但很少有大的重复(即,我们忘记考虑长尾)。例如,在上面的例子#1选项(b)中,第一次掷T后伴随着连续11 T的序列只有2^11 分之一的可能性(在12次投掷硬币的序列中Link中1),在统计意义上这是罕见的,但它仍然在我的实验中发生了!
所以,这把我们带回到我们的问题#2,
其正确的答案是:(a)。
如果这个问题的答案给我们惊喜,这是因为当我们手动生成随机序列(不客观公正的算法的帮助下),或者当我们试图去判断,如果数据串是随机序列,我们很容易落入一些上面列出的陷阱。