通俗地说,辛普森悖论是在组合这些子组数据之后,数据内相对于数据子组的关系发生逆转。
例如,如果一所大学有两个系,并且两个系都有很高的女性被录取的可能性,那么在通过直觉结合他们的数据后,总体女性的录取概率应该很高,但这可能不是真的。
数学上
给定,a1/b1 < c1/d1 和 a2/b2 < c2/d2 那么 (a1+a2)/(b1+b2) < (c1+c2)/(d1+d2)?
辛普森悖论说这可能不是真的。
7/8 < 2/2 and 1/2 < 5/8 yet,
(7+1)/(2+2) > (2+5)/(2+8)
在针对加州大学伯克利分校的诉讼中也看到了类似的案例,该诉讼涉及招生数据,表明男性的申请被接受的可能性高于女性的申请。但是在检查了各个部门之后,一个相反的情况被考虑在内,因为大多数部门都偏爱女性而不是男性。
Applicants | Admitted | |
---|---|---|
Men | 8442 | 44% |
Women | 4321 | 35% |
Departments | Men | Women | ||
---|---|---|---|---|
Applicants | Admitted | Applicants | Admitted | |
A | 825 | 62% | 108 | 82% |
B | 560 | 63% | 25 | 68% |
C | 325 | 37% | 593 | 34% |
D | 417 | 33% | 375 | 35% |
E | 191 | 28% | 393 | 24% |
F | 272 | 6% | 341 | 7% |
为什么会这样?
原因:
之所以出现这种行为,是因为更多的女性申请了录取率较低的竞争性部门,而更多的男性则申请了录取率较低的竞争性部门。
高接受率。
从表中我们可以看出,在录取率高的A部门,男性申请了825人,女性申请了108人。而越来越多的女孩正在申请F和E等低利率部门。这最终导致被大学录取的男性多于女性。
另一个例子:
假设我们有一个如下图所示的配置,有两种类型的 bean 绿色和蓝色。
混合前:
从罐子里摘到绿豆的概率,
7/8 < 2/2
(Jar1) (Jar2)
1/2 < 5/8
(Jar3) (Jar4)
混合后:
从罐子里摘到绿豆的概率
8/10 > 7/10 Inequality
(Jar1 + Jar3) (Jar2 + Jar4)
在这里我们也可以看到,最初的罐子 1 和罐子 3 分别比罐子 2 和罐子 4 有更高的采摘绿豆的概率,但在混合罐子的内容之后,这种关系发生了逆转。混合后,罐子2和罐子4的含量加起来有更高的采摘率。这是辛普森悖论的一个非常简单的例子。