📅  最后修改于: 2020-09-29 05:23:49             🧑  作者: Mango
在统计假设检验中,通过假设无效假设(H0)为真,P值(有时称为概率值)用于观察检验结果或更极端的结果。在数据科学中,有很多概念是从不同学科借来的,p值就是其中之一。 p值的概念来自统计,并广泛用于机器学习和数据科学中。
在统计中,我们的主要目标是确定结果的统计显着性,并且该统计显着性是基于以下三个概念得出的:
让我们了解它们中的每一个。
假设检验可以在两个术语之间定义。零假设和替代假设。它用于检查使用样本数据得出的零假设或主张的有效性。在这里,原假设(H0)被定义为两个变量之间没有统计意义的假设,而替代假设被定义为两个变量之间具有统计意义的假设。两个变量之间没有显着的关系,表明一个变量不会影响另一变量。因此,Null假设表明您要证明的内容实际上并未发生。如果自变量不影响因变量,则它将显示替代假设条件。
可以简单地说,在假设检验中,首先,我们使用样本数据提出一个假设为零假设的声明。如果发现该主张无效,则选择替代假设。使用p值验证此假设或要求,以使用证据查看其是否具有统计意义。如果证据支持替代假设,则原假设被拒绝。
假设检验的步骤
以下是进行假设检验实验的步骤:
正态分布(也称为高斯分布)是概率分布函数。它关于均值对称,并用于通过图形图查看数据的分布。它表明,与远离均值的数据相比,接近均值的数据更频繁地出现,并且看起来像钟形曲线。正态分布的两个主要项是均值(μ)和标准偏差(σ)。对于正态分布,平均值为零,标准偏差为1。
在假设检验中,我们需要计算z得分。 Z分数是距数据点平均值的标准偏差数。
在这里,z得分告诉我们数据与平均人口相比的位置。
确定假设检验的统计显着性是计算p值的目的。为此,首先,我们需要设置一个阈值,即alpha。在实验之前,我们应该始终设置alpha值,并且将其设置为0.05或0.01(取决于问题的类型)。
如果观察到的p值小于alpha,则得出结论为有意义的结果。
为p值定义了两种类型的误差:这些错误如下:
它被定义为对Null假设的错误或错误拒绝。对于此错误,最大概率为alpha,并且已预先设置。该错误不受数据集样本大小的影响。随着我们增加测试或端点的数量,I型错误也会增加。
II型错误定义为对Null假设的错误接受。 II型错误的概率为beta,且beta取决于样本大小和alpha值。不能将beta确定为真实人口效应的函数 。 β的值与样本量成反比,这意味着β随着样本量的增加而减小。
当我们增加测试或端点的数量时,β的值也会减小。
我们可以通过下表了解假设检验与决策之间的关系:
Decision | ||
Truth | Accept H0 | Reject H0 |
H0 is true | Correct decision | Type I error |
H0 is false | Type II error | Correct Decision |
p值的重要性可以从两个方面进行理解: