机器学习中的回归分析

📌 相关文章

📜 机器学习中的回归分析

📅 最后修改于: 2020-09-27 01:05:39 🧑 作者: Mango

回归分析是一种统计方法，用于对具有一个或多个自变量的因变量(目标变量)和自变量(预测变量)之间的关系进行建模。更具体地说，回归分析有助于我们理解在其他自变量保持固定的情况下，自变量的值对应于自变量的变化方式。它可以预测连续/实际值，例如温度，年龄，工资，价格等。

我们可以使用以下示例了解回归分析的概念：

示例：假设有一家营销公司A，该公司每年都会做各种广告并以此获得销售。以下列表显示了该公司在过去5年中制作的广告以及相应的销售额：

现在，该公司想要在2019年做200美元的广告，并想知道有关今年销售额的预测。因此，为了解决机器学习中的这类预测问题，我们需要回归分析。

回归是一种有监督的学习技术，有助于发现变量之间的相关性，并使我们能够基于一个或多个预测变量来预测连续输出变量。它主要用于预测，预测，时间序列建模以及确定变量之间的因果关系。

在回归中，我们在最适合给定数据点的变量之间绘制图形，使用此图形，机器学习模型可以对数据进行预测。用简单的话说，“回归显示一条线或曲线，它穿过目标预测图上的所有数据点，以使数据点和回归线之间的垂直距离最小。”数据点和线之间的距离表明模型是否已捕获牢固的关系。

回归的一些示例如下：

因变量：我们要预测或理解的回归分析中的主要因素称为因变量。也称为目标变量 。
自变量：影响因变量或用于预测因变量值的因子称为自变量，也称为预测变量 。
离群值：离群值是与其他观测值相比包含非常低值或非常高值的观察值。离群值可能会影响结果，因此应避免使用。
多重共线性：如果自变量比其他变量彼此高度相关，则这种条件称为多重共线性。它不应出现在数据集中，因为在对影响最大的变量进行排名时会产生问题。
欠拟合和过度拟合：如果我们的算法在训练数据集上效果很好，但在测试数据集上效果不好，那么这种问题称为“ 过度拟合” 。如果我们的算法即使在训练数据集的情况下也无法很好地执行，则这种问题称为欠拟合 。

如上所述，回归分析有助于预测连续变量。在现实世界中，我们需要一些未来的预测，例如天气状况，销售预测，市场趋势等，在这种情况下，我们需要一些可以更准确地进行预测的技术。因此对于这种情况，我们需要回归分析，这是一种统计方法，用于机器学习和数据科学中。以下是使用回归分析的其他一些原因：

数据科学和机器学习中使用了各种类型的回归。每种类型在不同情况下都有其重要性，但从根本上讲，所有回归方法都分析了自变量对因变量的影响。在这里，我们讨论了一些重要的回归类型，如下所示：

      Y= aX+b

在这里，Y =因变量(目标变量)，X =自变量(预测变量)，a和b是线性系数

线性回归的一些流行应用是：

当我们向函数提供输入值(数据)时，它会给出S曲线，如下所示：

逻辑回归有以下三种类型：

多项式回归方程式也从线性回归方程式衍生而来，这意味着线性回归方程式Y = b ₀ + b ₁ x转换为多项式回归方程式Y = b ₀ + b ₁ x + b ₂ x ² + b ₃ x ³ +。 …. + b _n x ⁿ 。
Y是预测/目标输出，b ₀ ，b ₁ ，… b _n是回归系数 。 x是我们的自变量/输入变量 。
该模型仍然是线性的，因为系数仍是二次线性的