📌 相关文章

📜 重复保持方法介绍

📅 最后修改于: 2022-05-13 01:58:07.912000 🧑 作者: Mango

重复保持方法介绍

先决条件：介绍保持方法

重复保持方法是保持方法的迭代，即它是保持方法的重复执行。
这个方法可以重复——'K' 次/迭代。
在这种方法中，我们采用数据集的随机抽样。数据集是随机分区的，而不是基于任何公式。

[注意：随机抽样是指从总体中选择“n”个人，选择方式是每组“n”个人都有相同的机会被选中。 ]

示例 – 考虑一个随机分层为训练集和测试集的数据集。我们对“K”次迭代重复保持方法。让我们假设 K=3

上述迭代中阴影部分为测试集，未阴影部分为训练集，是对数据集进行分层后得到的。
在第一次迭代“ITERATION – 01”中，基于属于训练集的数据项/示例构建分类器。构建后的分类器应用于测试集。获得的结果是误差估计，例如“E1”。
在第二次迭代'ITERATION – 02'中，第一次迭代是随机排列的。现在基于训练集数据项/示例构建分类器。构建后的分类器应用于测试集。获得的结果是误差估计，例如“E2”。
在第三次迭代'ITERATION – 03'中，第二次迭代是随机排列的。现在基于训练集数据项/示例构建分类器。构建后的分类器应用于测试集。获得的结果是误差估计，例如“E3”。
迭代因此重复'K=3'次。
要找到整体误差估计，我们可以使用公式 -

$E=1 / K \sum_{i=1}^{k} E i \quad \text { or } \quad E=E 1+E 2+E 3 / 3$

问题：重叠测试集问题。

由于我们将数据集随机划分为训练集和测试集，因此有些数据项/示例根本无法放入训练集中

例子 -