如何计算 R 中卡方统计量的 P 值

卡方统计是一种表示两个分类变量之间关系的方法。在统计学中，变量分为两类：数值变量和非数值变量（分类）。卡方统计量用于表示观察到的计数与在总体中不存在任何关系时预期的计数之间存在多少差异。当进行卡方检验时，我们得到检验统计量，并在检验统计量的帮助下，我们可以找到 p 值，在此基础上我们可以确定检验结果是否具有统计显着性。

R 为我们提供了 pchisq()函数，使用它我们可以找到卡方统计量的 p 值。该函数的语法如下：

Syntax:

pchisq(q = “value”, df = “value”, lower.tail = TRUE)

Parameters:

q: It represent the Chi-Square test statistic
df: It represents the degrees of freedom
lower.tail = “TRUE”: The probability in the left of q in the Chi-Square distribution is returned.
lower.tail = “FALSE”: The probability in the right of q in the Chi-Square distribution is returned.

Note that by default lower.tail is TRUE.

编程需要懂一点英语

方法 1：卡方拟合优度检验

一家沙龙店老板建议在周末和工作日有相同数量的顾客光顾他的店。为了检验这一假设，研究人员跟踪了一周内光顾他店铺的顾客数量。他们找到以下信息：

Weekday	Number of customer visiting
Monday	8
Tuesday	6
Wednesday	10
Thursday	12
Friday	13
Saturday	6
Sunday	15

第 1 步：假设：

我们现在将使用以下假设进行卡方拟合优度检验：

H0：每天有相同数量的顾客进入沙龙店。
H1：每天进入沙龙店的顾客数量不相等。

第 2 步：计算每天 (OE) ² / E 的值。

一周内共有 70 位顾客光顾了沙龙店。因此，如果我们认为每天有相同数量的人访问他的商店，那么期望值“E”（每天）等于 10。

Weekday	Number of customer visiting
Monday	(8 – 10)² / 10 = 0.4
Tuesday	(6 – 10)² / 10 = 1.6
Wednesday	(10 – 10)² / 10 = 0
Thursday	(12 – 10)² / 10 = 0.4
Friday	(13 – 10)²/ 10 = 0.9
Saturday	(6 – 10)²/ 10 = 1.6
Sunday	(15 – 10)² / 10 = 2.5

步骤 3：计算检验统计量 X ² 。

X² = Σ(O – E)² / E = 0.4 + 1.6 + 0 + 0.4 + 0.9 + 1.6 + 2.5 = 7.4

编程需要懂一点英语

第 4 步：计算检验统计量 X ²的 p 值。

现在让我们计算检验统计量的 p 值。 q 等于 7.4，df 等于 6。

例子：

R

# Determine the p-value for the Chi-Square test statistic
pchisq(q=7.4, df=6, lower.tail=FALSE)

R

# Determine p-value for the Chi-Square 
# test statistic
pchisq(q=0.64521, df=2, lower.tail=FALSE)

输出：

输出

因此，与 X ² = 7.4 和 n-1 = 7-1 = 6 自由度相关的 p 值为 0.28543311。

p 值等于 0.28。因为这个值不小于0.05。因此，我们将无法拒绝原假设。这意味着我们没有足够的证据来声称客户的实际分配与店主建议的分配不同。

方法2：卡方独立性检验

让我们考虑一个研究人员有兴趣了解特定年龄组偏好是否与soap产品相关的示例。人口中有两个年龄组：

18岁以下。
等于或大于 18 岁。

对 100 名公民进行了随机抽样，并对他们的soap产品偏好进行了调查。进行了卡方独立性检验并提取了以下信息：

卡方检验统计量 (X ² )：0.64521
自由度：（df）：2

现在我们将确定与该卡方检验统计量和自由度相关的 p 值。

R

# Determine p-value for the Chi-Square 
# test statistic
pchisq(q=0.64521, df=2, lower.tail=FALSE)

输出：

输出

p 值等于 0.72425。由于 p 值大于 0.05，因此我们不能遵循原假设。这意味着我们没有足够的证据表明年龄组和soap产品偏好之间存在联系。