📜  使用 OLS 摘要解释线性回归的结果

📅  最后修改于: 2022-05-13 01:54:50.552000             🧑  作者: Mango

使用 OLS 摘要解释线性回归的结果

这篇文章就是告诉你回归汇总表的整体解读。用于回归分析的统计软件有很多,如 Matlab、Minitab、spss、R 等,但本文使用的是Python。其他工具的解释也相同。本文需要统计的基础知识,包括回归、自由度、标准差、残差平方和(RSS)、ESS、t统计等基础知识。

在回归中有两种类型的变量,即因变量(也称为解释变量)和自变量(解释变量)。

这里使用的回归线是,

\hat{Y}_{i}=-3.2002+0.7529 X_{i}

下面给出了回归的汇总表。



OLS Regression Results                            
        ==============================================================================
        Dep. Variable:                      y   R-squared:                       0.669
        Model:                            OLS   Adj. R-squared:                  0.667
        Method:                 Least Squares   F-statistic:                     299.2
        Date:                Mon, 01 Mar 2021   Prob (F-statistic):           2.33e-37
        Time:                        16:19:34   Log-Likelihood:                -88.686
        No. Observations:                 150   AIC:                             181.4
        Df Residuals:                     148   BIC:                             187.4
        Df Model:                           1                                         
        Covariance Type:            nonrobust                                         
        ==============================================================================
                         coef    std err          t      P>|t|      [0.025      0.975]
        ------------------------------------------------------------------------------
        const         -3.2002      0.257    -12.458      0.000      -3.708      -2.693
        x1             0.7529      0.044     17.296      0.000       0.667       0.839
        ==============================================================================
        Omnibus:                        3.538   Durbin-Watson:                   1.279
        Prob(Omnibus):                  0.171   Jarque-Bera (JB):                3.589
        Skew:                           0.357   Prob(JB):                        0.166
        Kurtosis:                       2.744   Cond. No.                         43.4
        ==============================================================================

因变量:因变量是依赖于其他变量的变量。在这个回归分析中, Y是我们的因变量,因为我们要分析XY的影响。

模型:普通最小二乘法(OLS)因其效率而成为最广泛使用的模型。该模型给出了真实人口回归线的最佳近似值。 OLS 的原理是最小化误差的平方 ( ∑e i 2 )。

观察次数:观察次数是我们样本的大小,即N = 150。

残差的自由度(df):

自由度是独立观察的数量,在此基础上计算平方和。

Df 残差 = 150 – (1+1) = 148

自由度(Df)计算如下,

自由度, D。 f = N – K

其中, N =样本量(观察数), K =变量数 + 1

模型的df:

模型的 Df = K – 1 = 2 – 1 = 1 ,

其中, K =变量数 + 1

                   



常数项:常数项是回归线的截距。从回归线 (eq…1) 来看,截距是 -3.002。在回归中我们省略了一些对因变量没有太大影响的自变量,截距告诉了这些省略变量的平均值和模型中存在的噪声。

系数项:系数项表示X单位变化时Y的变化,即如果X增加 1 个单位,则Y增加 0.7529。如果您熟悉导数,那么您可以将其与Y相对于X的变化率联系起来

参数的标准误差标准误差也称为标准偏差。标准误差显示了这些参数的抽样变异性。标准误差的计算方式为 -

截距项 (b1) 的标准误差:

s e\left(b_{1}\right)=\sqrt{\left(\frac{\sum x_{i}^{2}}{n \sum\left(x_{i}-\bar{x}\right)^{2}}\right) \sigma^{2}}

系数项的标准误差(b2):

s e\left(b_{2}\right)=\sqrt{\frac{\sigma^{2}}{\sum\left(x_{i}-\bar{x}\right)}}

这里,σ 2回归标准误差 (SER)。并且σ 2等于RSS(Residual Sum Of Square,即∑e i 2 )。

t – 统计:

理论上,我们假设误差项服从正态分布,因此参数b 1 b 2也有正态分布,方差在上节计算。



那是 ,

  • b 1 ∼ N(B 1 , σ b1 2 )
  • b 2N(B 2 , σ b2 2 )

这里B 1和B 2是b1 和b2 的真均值。

t – 通过假设以下假设来计算统计数据 –

  • H 0 : B 2 = 0(变量 X 对 Y 没有影响)
  • H a : B 2 ≠ 0(X 对 Y 有显着影响)

t – 统计量的计算:

t = ( b 1 – B 1 ) / se (b 1 )

 从汇总表中,b 1 = -3.2002 和 se(b 1 ) = 0.257,所以,

                    t = (-3.2002 – 0) / 0.257 = -12.458

类似地, b 2 = 0.7529 ,se(b 2 ) = 0.044

t = (0.7529 – 0) / 0.044 = 17.296

p - 值:

理论上,我们读到 p 值是获得 t 统计量的概率,该统计量至少与假设原假设为真计算得出的 H 0矛盾。在汇总表中,我们可以看到两个参数的 P 值都等于 0。这不完全是 0,但由于我们有非常大的 t 统计量(-12.458 和 17.296),p 值将近似为 0。



如果您了解显着性水平,那么您会发现我们几乎可以在每个显着性水平上拒绝原假设。

置信区间:

有许多方法可以检验假设,包括上面提到的 p 值方法。置信区间方法就是其中之一。 5% 是制作 CI 的标准显着性水平 (∝)。

B 1 的CI 是( b 1 – t ∝/2 se(b 1 ) , b 1 + t ∝/2 se(b 1 ) )

由于 ∝ = 5 %, b 1 = -3.2002, se(b 1 ) =0.257,来自 t 表,t 0.025,148 = 1.655,

输入值后,B 1的 CI 约为。 ( -3.708 , -2.693 )。对于 b 2也可以这样做。

在计算 p 值时,我们拒绝了原假设,我们也可以在 CI 中看到相同的情况。由于 0 不在任何区间内,因此我们将拒绝原假设。

R - 平方值:

R 2是决定系数,它告诉我们自变量可以解释多少百分比变异。在这里,Y 中 66.9% 的变化可以用 X 来解释。R 2的最大可能值可以是 1,这意味着 R 2值越大,回归越好。

F——统计:

F 检验说明回归的拟合优度。该检验类似于我们为假设所做的 t 检验或其他检验。 F – 统计量计算如下 –

F=\frac{R^{2} /(k-1)}{\left(1-R^{2}\right) /(n-k)}

插入 R 2 、n 和 k 的值,F = (0.669/1) / (0.331/148) = 229.12。

您可以计算 1 和 148 df 的 F >229.1 的概率,大约为0. 由此,我们再次拒绝上述原假设。

其余术语不常使用。 Skewness 和 Kurtosis 等术语说明了数据的分布。正态分布的偏度和峰度分别为 0 和 3。 Jarque-Bera 测试用于检查错误是否具有正态分布。