P 值,也称为概率值,是一种统计量度,用于确定是否接受或拒绝零假设,考虑零假设为真。
为了计算 p 值,我们进行了一个实验,并根据对检验统计量的观察做出决定,即,如果度量在统计上低于显着性水平,则拒绝原假设,指定原假设非常重要发生的可能性较小。
这个怎么运作?
想想看,有一本杂志说,美国一家公司平均有 12% 的印度员工。
- 假设:
- 检验统计量:平均一家公司有 12% 的印度员工,即 μ(人口)= 0.12。
- 零假设(H0):一家公司有 12% 的印度员工。
- 替代假设(Ha):美国一家公司有超过 12% 的印度员工。
- 显着性水平:α = 0.05(通常为低值)
- 样本统计:我们选取一家 X 公司,检查 50 名员工,发现 20% 以上是印度人。
我们进行 n 次实验,如果获得样本统计量的概率,假设有 12% 的印度员工,对于 n 个观察值(p 值)小于 0.05,我们拒绝零假设并接受替代假设,否则我们不拒绝零假设。
p 值 = P( μ (样本) > 20% | H0 为真)
确定 P 值的方法
通过模拟
我们模拟这种情况并抽取样本,使我们的 Null Hypothesis 为真。在上面的例子中,我们取了 20 个样本,每个样本 50 名员工,在每个样本中,有 12% 的印度员工(零假设)。我们从上述收集的样本中重新抽取了 20 个样本,每人 50 名。
下面是模拟结果:
20 个样本中有 5 个样本的印度员工比例超过 20%。
因此,p 值为 5/20 = 0.25。
由于显着性水平为 5%,并且经过模拟,该值获得了 25%,我们不能拒绝原假设。 z 统计
要进行 z-test,我们收集的样本需要满足三个条件:
- 随机:数据的抽样是纯随机的。
- 正态:数据需要大致呈正态分布。
- 独立:样本必须独立于前一个样本,即我们需要进行放回抽样,或者,我们可以检查样本是否小于其总体的10%。
假设满足三个条件,则通过查看样本统计量与总体比例之间的标准差来计算 z 值。
对于 z 检验,不考虑均值,而是取比例来计算 p 值。
这里, ρ(Population)=12%, ρ(Sample)=20% and n=50 (考虑到ρ,即比例与平均值相同)
我们得到, z = -0.004
p 值是从z 表中获得的上述 z 值,为 0.4840,即大约 48%。
由于显着性水平为 5%,我们获得了 48%,我们不能拒绝原假设。 t 统计量
在t检验中,三个条件都符合z检验的要求,即样本应该是随机的、正态的和独立的。
这里μ(Population)=12%,μ(Sample)=20%,σ(Sample),即样本的标准差为5,n=50。
那么,t = -0.113
对于 t-Test,我们查看t 表以找到 p 值,自由度 (df) 为 n-1,即 49,我们在第 49 行中查找等于或大于 t 的值,并且获得相应的 y 值,使 p 值大约为 45%。
由于 p 值为 45%,我们的显着性水平为 5%,因此我们不能拒绝原假设。
Note: When considering means, t-test is used, and when considering proportions, z test is used.