📜  集合方法和群体智慧

📅  最后修改于: 2022-05-13 01:58:08.892000             🧑  作者: Mango

集合方法和群体智慧

集成方法是最成功的机器学习模型之一。集成方法取得的众多成功之一是在 Netflix 奖竞赛中获胜的解决方案。在本文中,我们将探讨这些集成方法如何以及为何在幕后工作。 Ensemble 是指一组相似的事物,通常被认为是一个整体。因此,集成方法无非是一组模型,它们共同用于进行预测。集成方法起源于群体智慧的原则。

群体智慧:

群体智慧是解释集体知识如何优于少数知识的原理。简单来说,就是问很多个人知识少的人,比问少数知识丰富的人要好。似乎违反直觉,对吧?

让我们通过数学来解决这个悖论。假设我们有一位专家,他对问题给出正确解决方案的准确率为 90%。此外,假设非专家在为同一问题提供正确解决方案时的准确率仅为 51%。现在,如果我们询问 1000 个非专家的集体意见,我们得到 75% 的准确率(总共 510 个非专家平均会给出正确的解决方案,但他们集体给出正确解决方案的概率,即,至少有 501 人会给出正确的解决方案会在 75% 以上)。它仍然远低于从专家那里得到正确解决方案的概率,但仍然比单个非专家(概率仅为 51%)高得多。但是,如果我们将考虑的非专家人数从 1000 人增加到 10000 人并进行数学计算,那么他们给出正确解决方案的概率为 97%!这比专家获得正确解决方案的概率要高得多。

一组 10000 名非专家,个人准确率仅为 51%,集体准确率将达到 97!



这种现象被称为群体智慧。这种现象被集成方法使用。与其训练提供非常高准确率(例如 90%)的模型(例如决策树),不如创建 10000 个准确率非常低(仅 51%)的模型(决策树)。只需通过硬(简单)投票或软(加权)投票对这 10000 个模型进行集体预测。

其他几种技术,例如堆叠、装袋、粘贴等,可以与集成方法一起使用。