重复保持方法介绍
先决条件:介绍保持方法
- 重复保持方法是保持方法的迭代,即它是保持方法的重复执行。
- 这个方法可以重复——'K' 次/迭代。
- 在这种方法中,我们采用数据集的随机抽样。数据集是随机分区的,而不是基于任何公式。
[注意:随机抽样是指从总体中选择“n”个人,选择方式是每组“n”个人都有相同的机会被选中。 ]
示例 – 考虑一个随机分层为训练集和测试集的数据集。我们对“K”次迭代重复保持方法。让我们假设 K=3
- 上述迭代中阴影部分为测试集,未阴影部分为训练集,是对数据集进行分层后得到的。
- 在第一次迭代“ITERATION – 01”中,基于属于训练集的数据项/示例构建分类器。构建后的分类器应用于测试集。获得的结果是误差估计,例如“E1”。
- 在第二次迭代'ITERATION – 02'中,第一次迭代是随机排列的。现在基于训练集数据项/示例构建分类器。构建后的分类器应用于测试集。获得的结果是误差估计,例如“E2”。
- 在第三次迭代'ITERATION – 03'中,第二次迭代是随机排列的。现在基于训练集数据项/示例构建分类器。构建后的分类器应用于测试集。获得的结果是误差估计,例如“E3”。
- 迭代因此重复'K=3'次。
- 要找到整体误差估计,我们可以使用公式 -
问题:重叠测试集问题。
- 由于我们将数据集随机划分为训练集和测试集,因此有些数据项/示例根本无法放入训练集中
例子 -