📜  Z检验

📅  最后修改于: 2021-08-27 17:06:57             🧑  作者: Mango

Z检验是一种统计方法,用于确定检验统计量的分布是否可以通过正态分布来近似。当两个样本均值的方差已知且样本量较大(应大于等于30)时,它是确定两个样本均值是近似相同还是不同的方法。

何时使用Z检验:

  • 样本数量应大于30。否则,我们应使用t检验。
  • 应从总体中随机抽取样本。
  • 应该知道总体的标准偏差。
  • 从总体中抽取的样本应该彼此独立。
  • 数据应呈正态分布,但是对于大样本量,假定具有正态分布。

假设检验

假设是关于对象的特定属性的有根据的猜测/主张。假设检验是一种验证实验要求的方法。

  • 零假设:零假设是对总体参数的值(例如比例,均值或标准差)等于某个要求的值的声明。我们要么否定原假设,要么否定原假设。零假设由H 0表示。
  • 替代假设:替代假设是以下陈述:参数的值不同于要求的值。用H A表示。

重要程度:它表示我们接受或拒绝原假设的重要程度。由于在大多数实验中,接受或拒绝假设均不可能达到100%的准确度,因此,我们选择了有意义的水平。用alpha (∝)表示。

执行Z测试的步骤:

  • 首先,确定原假设和替代假设。
  • 确定显着性水平(∝)。
  • 使用以下命令在z检验中找到z的临界值
  • 计算z检验统计量。以下是计算z检验统计量的公式。

Z  =  \frac{(\overline{X}- \mu)}{\left ( \sigma /\sqrt{n} \right )}

  • 在哪里,
    • X:样品的平均值。
    • 亩:人口平均数。
    • Sd:总体的标准偏差。
    • n:样本量。
  • 现在与假设进行比较,并决定是否拒绝原假设

Z检验类型

  • 左尾检验:在此检验中,我们的拒绝区域位于分布的最左侧。在这里,我们的零假设是要求的价值小于或等于平均人口价值。

  • 右尾检验:在此检验中,我们的拒绝区域位于分布的最右边。在这里,我们的零假设是要求的价值小于或等于平均人口价值。

  • 两尾检验:在此检验中,我们的拒绝区域位于分布的两个极端。在这里,我们的零假设是要求的价值等于平均人口价值。

以下是执行z测试的示例:

问题:一所学校声称学生的学习比普通学校更聪明。在计算50名学生的智商得分时,平均值为11。总体智商平均值为100,标准差为15。请说明本人主张的权利是否正确(重要性水平为5%)。

  • 首先,我们定义零假设和替代假设。我们的原假设为:

H_0 : \mu  = 100

和我们的替代假设。

H_A : \mu > 100

  • 说明重要性水平。在这里,我们在这个问题中给出的显着性水平(∝ = 0.05),如果未给出,则取∝ = 0.05。
  • 现在,我们看一下z表。对于∝ = 0.05的值,右尾检验的z分数为1.645。
  • 现在,我们对问题执行Z检验:

Z  =  \frac{(\overline{X}- \mu)}{\left ( \sigma /\sqrt{n} \right )}

  • 在哪里:
    • X = 110
    • 平均值(μ)= 100
    • 标准偏差(sigma)= 15
    • 显着性水平(α)= 0.05
    • n = 50

\frac{\left ( 110-100\right )}{15/\sqrt{50}}
\frac{10}{(15/sqrt(50))}
\frac{10}{2.12}
4.71

  • 这里4.71> 1.645,因此我们拒绝原假设。如果z检验统计量小于z分数,那么我们将不会拒绝原假设。
Python3
# imports
import math
import numpy as np
from numpy.random import randn
from statsmodels.stats.weightstats import ztest
  
# Generate a random array of 50 numbers having mean 110 and sd 15
# similar to the IQ scores data we assume above
mean_iq = 110
sd_iq = 15/math.sqrt(50)
alpha =0.05
null_mean =100
data = sd_iq*randn(50)+mean_iq
# print mean and sd
print('mean=%.2f stdv=%.2f' % (np.mean(data), np.std(data)))
  
# now we perform the test. In this function, we passed data, in value parameter
# we passed mean value in the null hypothesis, in alternative hypothesis we check whether the
# mean is larger
  
ztest_Score, p_value= ztest(data,value = null_mean, alternative='larger')
# the function outputs a p_value and z-score corresponding to that value, we compare the 
# p-value with alpha, if it is greater than alpha then we do not null hypothesis 
# else we reject it.
  
if(p_value <  alpha):
  print("Reject Null Hypothesis")
else:
  print("Fail to Reject NUll Hypothesis")


Reject Null Hypothesis

两次抽样z检验:

在此测试中,我们提供了2个正态分布且独立的总体,并从两个总体中随机抽取了样本。在这里,我们认为u 1和u 2是总体平均值X 1和X 2是观察到的样本平均值。在这里,我们的零假设可能像:

H_{0} : \mu_{1} -\mu_{2} = 0

和替代假设

H_{1} :  \mu_{1} - \mu_{2} \ne 0

以及计算z检验分数的公式:

Z = \frac{\left ( \overline{X_{1}} - \overline{X_{2}} \right ) - \left ( \mu_{1} - \mu_{2} \right )}{\sqrt{\frac{\sigma_{1}^2}{n_{1}} + \frac{\sigma_{2}^2}{n_{2}}}}

其中sigma 1sigma 2是标准偏差, n 1和n 2是对应于u 1和u 2的总体样本大小

类型1错误和类型II错误:

  • I类错误:即使假设为真,我们拒绝原假设时也会发生1类错误。此错误用alpha表示。
  • II型错误:即使我们的假设为假,当我们不拒绝原假设时,也会发生II型错误。此错误由beta表示。
  Null Hypothesis is TRUE Null Hypothesis is FALSE
Reject Null Hypothesis

Type I Error

(False Positive)

Correct decision
Fail to Reject the Null Hypothesis Correct decision

Type II error

(False Negative)