📜  套袋vs提升

📅  最后修改于: 2020-12-21 09:54:19             🧑  作者: Mango

套袋与助推

我们都在日常生活中使用决策树技术进行决策。组织使用这些受监督的机器学习技术(例如决策树)来做出更好的决策,并产生更多的盈余和利润。

集成方法将不同的决策树组合在一起,以提供更好的预测结果,然后再利用单个决策树。集成模型背后的主要原理是一群弱学习者聚集在一起形成一个积极的学习者。

下面给出了两种用于执行整体决策树的技术。

装袋

当我们的目标是减少决策树的方差时,使用装袋。这里的概念是从训练样本中创建一些数据子集,这些子集是通过替换随机选择的。现在,每个子集数据集合都用于准备其决策树,因此,我们最终得到了各种模型的集合。使用来自多个发束的所有假设的平均值,它比单个决策树更强大。

Random Forest是对套袋的扩展。它需要采取另一步骤来预测数据的随机子集。它还可以随机选择特征,而不是使用所有特征来开发树。当我们有许多随机树时,它称为随机森林。

以下是实现随机森林所采取的以下步骤:

  • 让我们考虑训练数据集中的X个观测值Y个特征。首先,从训练数据集中随机抽取模型。
  • 这棵树发展到最大。
  • 重复给定的步骤,并给出预测,它基于从n棵树中收集的预测。

使用随机森林技术的优势:

  • 它很好地管理了较高维度的数据集。
  • 它管理丢失的数量并保持丢失数据的准确性。

使用随机森林技术的缺点:

由于最后的预测取决于子集树的均值预测,因此无法为回归模型提供精确的值。

提升:

增强是另一个集合预测变量的过程。换句话说,我们拟合连续的树,通常是随机样本,并且在每个步骤中,目标是解决现有树的净误差。

如果给定的输入在理论上被错误分类,则其权重会增加,因此即将出现的假设更有可能通过合并整个集合最终将正确的分类正确地转化为学习能力差的模型。

梯度增强是增强过程的扩展。

Gradient Boosting = Gradient Descent + Boosting

它利用梯度下降算法可以优化任何微分损失函数。单独构造一棵树木,然后相继求和。下一棵树尝试恢复损失(这是实际值与预测值之间的差)。

使用梯度增强方法的优点:

  • 它支持不同的损失功能。
  • 它与交互效果很好。

使用渐变增强方法的缺点:

  • 它要求谨慎调整不同的超参数。

套袋和加强之间的区别:

Bagging Boosting
Various training data subsets are randomly drawn with replacement from the whole training dataset. Each new subset contains the components that were misclassified by previous models.
Bagging attempts to tackle the over-fitting issue. Boosting tries to reduce bias.
If the classifier is unstable (high variance), then we need to apply bagging. If the classifier is steady and straightforward (high bias), then we need to apply boosting.
Every model receives an equal weight. Models are weighted by their performance.
Objective to decrease variance, not bias. Objective to decrease bias, not variance.
It is the easiest way of connecting predictions that belong to the same type. It is a way of connecting predictions that belong to the different types.
Every model is constructed independently. New models are affected by the performance of the previously developed model.