📜  回归分析中的异方差

📅  最后修改于: 2022-05-13 01:58:09.095000             🧑  作者: Mango

回归分析中的异方差

先决条件:线性回归

在简单线性回归或多元线性回归中,我们对误差项做了一些基本假设\epsilon .

简单线性回归:

(1)    \begin{equation*} Y_i = \beta_0 + \beta_1 X_i + \epsilon_i \end{equation*}

多元线性回归:



(2)    \begin{equation*} Y_i = \beta_0 + \beta_1 X_i_1 + \beta_2 X_i_2 + .... + \beta_n X_i_n + \epsilon_i \end{equation*}

假设:

1. Error has zero mean
2. Error has constant variance
3. Errors are uncorrelated
4. Errors are normally distributed

第二个假设称为Homoscedasticity ,因此,违反该假设的情况称为Heteroscedasticity

方差与异方差:

因此,简单来说,我们可以将异方差性定义为回归模型中误差项或残差项的方差发生变化的条件。正如您在上图中看到的,在同方差的情况下,数据点是均匀分散的,而在异方差的情况下,数据点不是均匀分散的。

产生异方差的可能原因:

  1. 通常发生在那些最大和最小观测值之间有很大范围的数据集中,即存在异常值时。
  2. 当型号未正确指定时。
  3. 如果观察值与不同的尺度度量混合在一起。
  4. 当使用不正确的数据转换来执行回归时。
  5. 回归量分布的偏度,可能是其他一些来源。

异方差的影响:

  • 如上所述,线性回归的假设之一(假设编号 2)是不存在异方差性。打破这个假设意味着OLS(普通最小二乘)估计量不是最佳线性无偏估计量(蓝色),并且它们的方差不是所有其他无偏估计量中最低的。
  • 估算器不再是最佳/高效的。
  • 由于估计回归系数的协方差矩阵不一致,假设检验(如 t 检验、F 检验)不再有效。

用残差图识别异方差:
如上图所示,异方差在残差图中产生外开漏斗或外闭漏斗形状。

通过统计检验识别异方差:
异方差的存在也可以使用算法方法进行量化。有一些统计检验或方法可以用来确定异方差的存在与否。

  1. Breush – Pegan 检验:它检验回归误差的方差是否取决于自变量的值。在这种情况下,存在异方差性。
  2. 白色检验:白色检验确定回归模型中误差的方差是否恒定。为了测试恒定方差,需要进行辅助回归分析:这将原始回归模型的残差平方回归到一组包含原始回归量及其平方和叉积的回归量上。

异方差修正:

  1. 我们可以为模型使用不同的规格。
  2. 加权最小二乘法是常用的统计方法之一。这是普通最小二乘和线性回归的推广,其中允许误差协方差矩阵不同于单位矩阵。
  3. 使用 MINQUE:最小范数二次无偏估计 (MINQUE) 理论涉及三个阶段。首先,将一类潜在估计量定义为观测数据的二次函数,其中估计量与模型参数向量相关。其次,指定对估计量所需属性的某些约束,例如无偏性和第三,通过最小化衡量估计量协方差矩阵大小的“范数”来选择最佳估计量。

参考:https://en.wikipedia.org/wiki/Heteroscedasticity