📜  多重共线性检验

📅  最后修改于: 2022-05-13 01:58:07.257000             🧑  作者: Mango

多重共线性检验

多重共线性:通常发生在回归模型中的自变量相互关联时。由于假设自变量是独立的,因此不会出现这种相关性。如果这种相关程度很高,则可能会在预测模型结果时出现问题。

多重共线性的几个后果

  1. 估计量具有高方差和协方差,这使得精确估计变得困难。
  2. 由于第 1 点的上述结果,置信区间趋于变宽,从而导致更频繁地接受零零假设。
  3. 标准误差可能对数据的微小变化很敏感。
  4. 系数对模型中的微小变化非常敏感。它降低了回归模型的统计能力。
  5. 单个变量的影响变得难以与其他变量区分开来。

让我们通过一个例子来理解多重共线性:

示例:史蒂夫一边听音乐一边慢跑。当他长时间听音乐时,他最终会慢跑更长时间。现在我们要确定史蒂夫的适应度。我们能说些什么,哪些会对它产生更大的影响?听音乐还是慢跑?我们实际上无法判断,因为这些估计量相互依赖。如果我们尝试通过听音乐来衡量他的健康状况,他同时也在慢跑,而当我们尝试通过慢跑来衡量他的健康状况时,他也在听音乐。由于这两个属性都被用作他的适应度的估计量,由于这些变量之间存在多重共线性,因此很难得到准确的结果。

方差膨胀因子 (VIF)用于测试回归模型中是否存在多重共线性。它被定义为,



对于回归模型

Y=\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\ldots \ldots+\beta_{n} X_{n}

V I F=\frac{1}{1-R^{2}}

在哪里,

R^{2}=\frac{\sum\left(y_{\text {calculated }}-\bar{y}\right)^{2}}{\sum\left(y_{\text {given }}-\bar{y}\right)^{2}}

多重共线性的度量

如果 VIF 的值为 –

  • 1 => 不相关。多重共线性不存在。
  • 1 到 5 => 中度相关。存在低多重共线性。
  • 大于 5 => 高度相关。存在高度多重共线性。

VIF 的倒数称为容差,并给出如下:

T O L=\frac{1}{V I F}=\left(1-R^{2}\right)
  • 当 R 2 = 0 意味着不存在共线性时,我们可以说 Tolerance 很高 (=1)。

如果范围太高,您可以使用其他技术来解决这个多重共线性问题。

如有任何疑问,请在下方留言。