不同回归模型的优缺点
回归是典型的监督学习任务。它用于要预测的值是连续的情况。例如,在给定一组特征或预测变量(里程、品牌、年龄)的情况下,我们使用回归来预测目标数值,例如汽车的价格。我们用许多汽车示例训练系统,包括预测变量和相应的汽车价格(标签)。
回归模型的类型:
- 简单线性回归是一种线性回归模型,它使用一条直线来估计一个自变量和一个因变量之间的关系。
示例:薪水 = a 0 + a 1 *经验(y = a 0 + a 1 x
形式)。 - 多元线性回归是一种线性回归模型,它估计几个自变量(特征)和一个因变量之间的关系。
示例:汽车价格 = a 0 + a 1 *Mileage + a 2 *Brand + a 3 *Age(y = a 0 + a 1 x 1 + a 2 x 2 + ... + a n x n
形式) - 多项式回归是多元线性回归的一个特例。自变量 x 和因变量 y 之间的关系被建模为 x 中的 n 次多项式。线性回归不能用于拟合非线性数据(欠拟合)。因此,我们增加了模型的复杂度并使用了多项式回归,它更好地拟合了这些数据。 (
y = a 0 + a 1 x 1 + a 2 x 1 2 + ... + a n x 1 n
形式) - 支持向量回归是一种回归模型,我们尝试在某个阈值内拟合误差(与我们在之前的案例中所做的最小化错误率不同)。 SVR 可以适用于线性和非线性问题,具体取决于我们选择的内核。变量之间存在隐式关系,这与之前的模型不同,之前的模型通过方程明确定义了这种关系(系数足以平衡变量的规模)。因此,这里需要进行特征缩放。
- 决策树回归以树结构的形式构建回归模型。随着数据集被分解为更小的子集,相关的决策树将逐步构建。对于测试集中的一个点,我们使用构造的决策树来预测值
- 随机森林回归——在这里,我们从训练集中取出 k 个数据点并构建决策树。我们对不同的 k 点集重复此操作。我们必须以上述方式决定要构建的决策树的数量。设构造的树的数量为 n。我们使用所有 n 棵树来预测值,并取它们的平均值以获得测试集中某个点的最终预测值。
我们如何为给定的问题选择正确的回归模型?
考虑到诸如因变量和自变量(线性或非线性)之间的关系类型、为问题选择特定回归模型的利弊以及调整后的 R 2直觉等因素,我们选择回归最适合解决问题的模型。