分享一个有趣的悖论:辛普森悖论5 A5 q3 i6 w. [1 J6 |
辛普森悖论为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。; I) ~' o( P9 |" q" ` S
有一个非常有趣的故事来解释该悖论:
1 t- j- \- X6 W# r" s: P在一次教职工大会上,一群老师想要知道让学生获得最好学习成绩的最佳学习时间长度。* D, H# y {; {* T
因此,他们决定收集学生学习的时间数据,然后与学生的考试成绩进行比较。' u8 {- _; w9 s
因为事先相信更多的数据会意味着更好的结果,所以所有的老师都提供了他们的课程学时数据进行分析。也就是说,不同学科的数据被放在了一起进行统计分析。" S5 |4 }% o$ W) n7 _( F
然而,最后却得到了一个负相关的结论,以及一个强烈的负相关系数——-0.7981. y( W) U2 F6 o6 W5 J% Q
4 I6 z) g/ q- l3 T5 t* D
2 l/ `7 G) Y9 z) x很明显,这个结论是违背认知的,当然也是绝对错误的) b, l& e2 U! t. q% `
那么问题出在了哪里?
3 v) |4 T/ U6 ?7 c, H- `5 Z答案是:不应跨学科整合所有数据,而应该分别分析每门课程的数据$ Y& {4 q g0 `7 p$ x; t5 v2 G
例如,当单独分析体育学科时,结果如下:1 m! {! j7 P. z! a' O2 o
. Z- E! o1 x u" b4 E
4 ?8 q/ e. f# D' P
一个正的相关系数——0.63537 B% j8 Z6 ?. H
这就是一种统计现象,即当引入第三个或多个混杂变量时,前两个变量间看似强关联的数学关系就会消失,有时候甚至发生关系的逆转。5 H9 x& H1 s, p0 b9 o, i
随后,统计人员重新绘制了所有数据,和之前不同的是,每门课都用不同的颜色进行了标注,结果如下:
4 N' v! F4 z4 V. H2 U
0 y" n4 T, }9 O/ G
- I; Y4 ]! Q; E. |5 z& o! d3 o
可以看到,每门课的学习成绩和学习时间都是正相关的# ?& c0 h- k4 m/ F
然而,总体上来看,这两者却是呈现负相关的。在数据分析过程中,学习成绩和学习时间这两者的关系被完全的颠倒了。
2 W- f* f$ \1 F5 K7 I b! s: k7 k: A4 }$ \. e5 S8 l% N, f' U
: P1 L0 A' b$ c. y& A( c F
: f: g- w6 q# o8 t0 A7 e$ c8 g) H; o* _
这就是所谓的辛普森悖论
( w- J) h! n% S% h2 P% F" g/ v, p以上,谢谢 |