📜  概率与统计|辛普森悖论(加州大学伯克利分校的诉讼)

📅  最后修改于: 2021-09-22 10:52:34             🧑  作者: Mango

通俗地说,辛普森悖论是在组合这些子组数据之后,数据内相对于数据子组的关系发生逆转。

例如,如果一所大学有两个系,并且两个系都有很高的女性被录取的可能性,那么在通过直觉结合他们的数据后,总体女性的录取概率应该很高,但这可能不是真的。

数学上
给定,a1/b1 < c1/d1 和 a2/b2 < c2/d2 那么 (a1+a2)/(b1+b2) < (c1+c2)/(d1+d2)?

辛普森悖论说这可能不是真的。

7/8 < 2/2 and 1/2 < 5/8 yet, 
(7+1)/(2+2) > (2+5)/(2+8) 

在针对加州大学伯克利分校的诉讼中也看到了类似的案例,该诉讼涉及招生数据,表明男性的申请被接受的可能性高于女性的申请。但是在检查了各个部门之后,一个相反的情况被考虑在内,因为大多数部门都偏爱女性而不是男性。

Applicants Admitted
Men 8442 44%
Women 4321 35%

Departments Men Women
Applicants Admitted Applicants Admitted
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 272 6% 341 7%

为什么会这样?
原因:
之所以出现这种行为,是因为更多的女性申请了录取率较低的竞争性部门,而更多的男性则申请了录取率较低的竞争性部门。
高接受率。

从表中我们可以看出,在录取率高的A部门,男性申请了825人,女性申请了108人。而越来越多的女孩正在申请FE等低利率部门。这最终导致被大学录取的男性多于女性。

另一个例子:
假设我们有一个如下图所示的配置,有两种类型的 bean 绿色和蓝色。

混合前:
从罐子里摘到绿豆的概率,

7/8      <    2/2
(Jar1)        (Jar2)

1/2      <    5/8
(Jar3)        (Jar4) 

混合后:
从罐子里摘到绿豆的概率

8/10          >         7/10   Inequality
(Jar1 + Jar3)        (Jar2 + Jar4) 

在这里我们也可以看到,最初的罐子 1 和罐子 3 分别比罐子 2 和罐子 4 有更高的采摘绿豆的概率,但在混合罐子的内容之后,这种关系发生了逆转。混合后,罐子2和罐子4的含量加起来有更高的采摘率。这是辛普森悖论的一个非常简单的例子。