曼和惠特尼 U 检验

Mann 和 Whitney 的 U 检验或 Wilcoxon 秩和检验是非参数统计假设检验，用于分析序数数据的两个独立样本之间的差异。在这个测试中，我们提供了两个随机抽取的样本，我们必须验证这两个样本是否来自同一个群体。

Mann-Whitney U 检验的假设：

两组的所有观察都是相互独立的。
因变量的值应该是有序的（意味着它们可以相互比较并按从高到低的顺序排列）。
自变量应该是两个独立的分类组。
对于每个样本，推荐数量在 5 到 20 之间。
Mann-Whitney U 检验中的零假设始终相同，即两个样本之间没有显着差异。
Mann Whitney 检验适用于不需要正态分布但应具有相同曲线形状的两个分布。例如：如果（样本的）一条曲线的右尾较长，则另一条曲线（或其他样本）也应具有较长的右尾。

使用 Mann-Whitney U 检验的优点是它没有影响，因为它考虑的是中位数而不是平均值，因为存在异常值。

执行 Mann Whitney U 检验的步骤：

收集两个样品和样品 1 和样品 2。
从样本 1 中取出第一个观测值，并将其与样本 2 中的观测值进行比较。计算样本 2 中小于等于它的观测值的数量。例如，样本 2 中的 10 个观测值小于样本 1 和 2 中的第一个观测值，则等于该样本的 U 统计量：10 + 2(1/2) = 11
对样本 1 中的所有观测值重复步骤 2
将第 2 步和第 3 步的所有总数相加。这是我们的排名总和。
现在，我们使用以下公式计算 U 统计量

$U_1 = n_{1}n_{2} +\frac{n_{1}\left ( n_{1}+1 \right )}{2} - R_{1}$

$U_2 = n_{1}n_{2} +\frac{n_{2}\left ( n_{2}+1 \right )}{2} - R_{2}$

在哪里：
- n ₁ : 样本 1 中的样本数
- n ₂ : 样本 2 中的样本数
- R ₁ ：样本 1 的秩和
- R ₂ : 样本 2 的秩和
现在，我们的检验统计量 (U) 将小于 U ₁和 U ₂ 。
现在，我们查看表中关于 n ₁和 n ₂的临界值（取 U ₀ ）。
- 如果 U <= U ₀ ：我们拒绝原假设。
- 否则，我们不拒绝原假设。

例子：

假设对两批学生进行测试，结果如下：

Batch 1	Batch 2
3	9
4	7
2	5
6	10
2	8
5	6

在这里，我们的原假设将是
- H ₀ ：批次之间没有显着差异。
- H _A ：批次之间存在显着差异。
在这里，我们的显着性水平是 0.05
现在，我们根据批次对样本进行排名，如果两个样本的排名相同，那么我们将平均排名

Batch 1	Rank (Batch 1)	Batch 2	Rank (Batch 2)
2	1.5	5	5.5
2	1.5	6	7.5
3	3	7	9
4	4	8	10
5	5.5	9	11
6	7.5	10	12
Rank Sum	23	Rank Sum	55

现在，我们计算 U 统计量：

$U_1 = 6*6 + 7*6/2 -23 = 34$ [特克斯]U_2 = 6*6 +6*7/2 -55 = 2[/特克斯]

所以，我们的测试统计量 U = min ( U ₁ , U ₂ ) = min (34,2) =2。
现在，我们查看 n ₁ = 6 和 n ₂ = 6 的 U 统计表以及下表的显着性水平。在这里，我们的临界值是：

曼惠特尼二尾检验

$U_0 = 5$

这里 U < U ₀ ，那么我们拒绝原假设。

执行：

# code for Mann-Whitney U test
from scipy.stats import mannwhitneyu
# Take batch 1 and batch 2 data as per above example
batch_1 =[3, 4, 2, 6, 2, 5]
batch_2 =[9, 7, 5, 10, 8, 6]
  
# perform mann whitney test
stat, p_value = mannwhitneyu(batch_1, batch_2)
print('Statistics=%.2f, p=%.2f' % (stat, p_value))
# Level of significance
alpha = 0.05
# conclusion
if p_value < alpha:
    print('Reject Null Hypothesis (Significant difference between two samples)')
else:
    print('Do not Reject Null Hypothesis (No significant difference between two samples)')

输出：

Statistics=2.00, p=0.01
Reject Null Hypothesis (Significant difference between two samples)