📜  R 编程中的二比例 Z 检验(1)

📅  最后修改于: 2023-12-03 15:04:46.133000             🧑  作者: Mango

R编程中的二比例Z检验

二比例Z检验是用于比较两个比例之间差异是否显著的统计方法,常用于医学和社会科学领域的研究中。在R编程中,我们可以使用prop.test()函数进行二比例Z检验的计算。

二比例Z检验的原理

二比例Z检验的原理是基于正态分布的Z检验,对比两个独立的二项分布是否相等。假设我们要比较两个样本A和B的比例,其中A样本中有a个成功,b个失败,B样本中有c个成功,d个失败。假设我们的零假设为A和B的比例相等,即pA = pB,备择假设为A和B的比例不相等,即pA ≠ pB。我们可以通过计算检验统计量:

$$ Z = \frac {\hat P_A - \hat P_B} {SE(\hat P_A - \hat P_B)} $$

其中,$\hat P_A = \frac {a} {a+b}$, $\hat P_B = \frac {c} {c+d}$,SE为标准误,其计算公式为:

$$ SE(\hat P_A - \hat P_B) = \sqrt {\frac {\hat P_A (1 - \hat P_A)} {a+b} + \frac {\hat P_B (1 - \hat P_B)} {c+d}} $$

当样本量足够大时,我们可以基于正态分布的性质得到检验的p值。此时,我们可以使用prop.test()函数进行计算。

R编程中的二比例Z检验的实现

在R编程中,我们可以使用prop.test()函数进行二比例Z检验的计算,其函数的语法如下:

prop.test(x, n, alternative = c("two.sided", "less", "greater"),
          conf.level = 0.95, correct = TRUE)

其中,x是一个向量或矩阵,包含了A和B样本中成功的数量;n是一个向量或矩阵,包含了A和B样本中总体数量;alternative是备择假设的类型,默认是双侧备择假设,可以是less(左侧备择假设)或greater(右侧备择假设);conf.level是置信区间的置信水平,默认是0.95,表示95%的置信区间;correct表示连续性修正,当样本数量足够大时可以使用连续性修正方法计算p值,建议保持默认值为TRUE。

下面我们来看一个实例,比较两个样本中的比例是否相等。

# 生成两个样本数据
sample_A <- c(rep(1, 62), rep(0, 38)) # A样本中成功的数量为62,总共100个样本
sample_B <- c(rep(1, 48), rep(0, 52)) # B样本中成功的数量为48,总共100个样本
# 进行二比例Z检验
prop.test(x = c(sum(sample_A), sum(sample_B)), n = c(length(sample_A), length(sample_B)))

检验结果如下:

    2-sample test for equality of proportions with continuity correction

data:  c(sum(sample_A), sum(sample_B)) out of c(length(sample_A), length(sample_B))
X-squared = 1.0922, df = 1, p-value = 0.2968
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.12678536  0.04178536
sample estimates:
   prop 1    prop 2 
0.6200000 0.4800000 

从结果中可以看出,p值为0.2968,大于显著性水平0.05,因此我们无法拒绝零假设,认为A和B样本中的比例没有显著差异。

总结

二比例Z检验是用于比较两个比例之间差异是否显著的统计方法,在R编程中,我们可以使用prop.test()函数进行二比例Z检验的计算。在实际应用中,我们需要注意样本量是否足够大,以确保检验结果的可靠性。