分享一个有趣的悖论:辛普森悖论0 K2 e$ ^# N, Z8 M2 \
辛普森悖论为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
. N& ~( b5 p+ u1 A A7 H有一个非常有趣的故事来解释该悖论:7 f% j, h' n2 E+ y7 ?: B
在一次教职工大会上,一群老师想要知道让学生获得最好学习成绩的最佳学习时间长度。
8 @. f1 @8 L' G# e( I( z因此,他们决定收集学生学习的时间数据,然后与学生的考试成绩进行比较。
% D, D3 w' V$ P因为事先相信更多的数据会意味着更好的结果,所以所有的老师都提供了他们的课程学时数据进行分析。也就是说,不同学科的数据被放在了一起进行统计分析。: W4 N, @" h1 \6 p
然而,最后却得到了一个负相关的结论,以及一个强烈的负相关系数——-0.7981
* w, R* E& y) z! R1 ]* R
8 ]/ F( i! Z' @8 d3 C" J5 o2 K, W
# K6 N9 A9 [" q很明显,这个结论是违背认知的,当然也是绝对错误的
6 Y0 N' S1 d! \那么问题出在了哪里?
/ s B5 j, `! \+ ?# f& r答案是:不应跨学科整合所有数据,而应该分别分析每门课程的数据- d; J. k/ `9 z7 M# L
例如,当单独分析体育学科时,结果如下:
6 M* r8 R, J6 C( H& p7 z) I5 c& |) N
- b. m# Z" w- N2 W: ?6 v
9 S& Q/ L) u" i( y8 }
一个正的相关系数——0.6353. U" X$ F |, R3 g8 |4 o
这就是一种统计现象,即当引入第三个或多个混杂变量时,前两个变量间看似强关联的数学关系就会消失,有时候甚至发生关系的逆转。6 ^$ L2 [) v5 p5 A4 p6 L! T* _
随后,统计人员重新绘制了所有数据,和之前不同的是,每门课都用不同的颜色进行了标注,结果如下:- X# j: U+ ~/ g I3 o
9 p3 b' M$ L7 K% k% F- Y' R
* f c A+ h1 ?5 q可以看到,每门课的学习成绩和学习时间都是正相关的: \/ @8 Z3 k; ]& \
然而,总体上来看,这两者却是呈现负相关的。在数据分析过程中,学习成绩和学习时间这两者的关系被完全的颠倒了。8 M4 m- h7 p8 D9 i
9 s; V M6 b) z V( C1 z* H* W' K
9 d+ }2 B* R+ B, R: b! }3 @6 R& S5 o5 Q, F6 U+ {
这就是所谓的辛普森悖论9 b' _" k% y/ C
以上,谢谢 |