多重共线性检验
多重共线性:通常发生在回归模型中的自变量相互关联时。由于假设自变量是独立的,因此不会出现这种相关性。如果这种相关程度很高,则可能会在预测模型结果时出现问题。
多重共线性的几个后果
- 估计量具有高方差和协方差,这使得精确估计变得困难。
- 由于第 1 点的上述结果,置信区间趋于变宽,从而导致更频繁地接受零零假设。
- 标准误差可能对数据的微小变化很敏感。
- 系数对模型中的微小变化非常敏感。它降低了回归模型的统计能力。
- 单个变量的影响变得难以与其他变量区分开来。
让我们通过一个例子来理解多重共线性:
示例:史蒂夫一边听音乐一边慢跑。当他长时间听音乐时,他最终会慢跑更长时间。现在我们要确定史蒂夫的适应度。我们能说些什么,哪些会对它产生更大的影响?听音乐还是慢跑?我们实际上无法判断,因为这些估计量相互依赖。如果我们尝试通过听音乐来衡量他的健康状况,他同时也在慢跑,而当我们尝试通过慢跑来衡量他的健康状况时,他也在听音乐。由于这两个属性都被用作他的适应度的估计量,由于这些变量之间存在多重共线性,因此很难得到准确的结果。
方差膨胀因子 (VIF)用于测试回归模型中是否存在多重共线性。它被定义为,
对于回归模型
在哪里,
多重共线性的度量
如果 VIF 的值为 –
- 1 => 不相关。多重共线性不存在。
- 1 到 5 => 中度相关。存在低多重共线性。
- 大于 5 => 高度相关。存在高度多重共线性。
VIF 的倒数称为容差,并给出如下:
- 当 R 2 = 0 意味着不存在共线性时,我们可以说 Tolerance 很高 (=1)。
如果范围太高,您可以使用其他技术来解决这个多重共线性问题。
如有任何疑问,请在下方留言。