📜  集成分类器 |数据挖掘

📅  最后修改于: 2022-05-13 01:58:08.282000             🧑  作者: Mango

集成分类器 |数据挖掘

集成学习通过组合多个模型来帮助改善机器学习结果。与单个模型相比,这种方法允许产生更好的预测性能。基本思想是学习一组分类器(专家)并让他们投票。

为什么合奏会起作用?

Dietterich (2002) 表明集成克服了三个问题——



  • 统计问题——
    当假设空间对于可用数据量来说太大时,就会出现统计问题。因此,在数据上有许多具有相同准确性的假设,而学习算法仅选择其中之一!存在一种风险,即所选假设的准确性在看不见的数据上很低!
  • 统计问题——
    当学习算法不能保证找到最佳假设时,就会出现计算问题。
  • 代表性问题——
    当假设空间不包含目标类的任何良好近似时,就会出现表征问题。

开发集成模型的主要挑战是什么?

主要的挑战不是获得高度准确的基础模型,而是获得产生不同类型错误的基础模型。例如,如果使用集成进行分类,如果不同的基模型对不同的训练样本进行错误分类,即使基分类器的准确率很低,也可以实现高准确率。

集成分类器的类型 -

装袋:
Bagging(Bootstrap Aggregation)用于减少决策树的方差。假设有 d 个元组的集合 D,在每次迭代i 时,d 个元组的训练集 D i被采样,并从 D 中替换(即引导)。然后分类器模型M i的学习对每个训练集d的i返回其类别预测。袋装分类器 M* 对投票进行计数,并将投票最多的类分配给 X(未知样本)。

Bagging的实现步骤——



  1. 从具有相等元组的原始数据集创建多个子集,通过替换选择观察。
  2. 在这些子集中的每一个上创建一个基本模型。
  3. 每个模型都是从每个训练集中并行学习的,并且彼此独立。
  4. 最终的预测是通过结合所有模型的预测来确定的。

    随机森林:
    随机森林是对装袋的扩展。集成中的每个分类器都是一个决策树分类器,并使用在每个节点上随机选择的属性来确定拆分来生成。在分类过程中,每棵树投票,并返回最受欢迎的类。

    随机森林的实现步骤——

    1. 从原始数据集创建多个子集,选择替换观察。
    2. 随机选择一个特征子集,并使用给出最佳分割的特征来迭代地分割节点。
    3. 这棵树长到最大。
    4. 重复上述步骤,根据来自 n 个树的预测的聚合给出预测。

      您可以在 sklearn 文档中了解更多信息。