📜  重复保持方法介绍

📅  最后修改于: 2022-05-13 01:58:07.912000             🧑  作者: Mango

重复保持方法介绍

先决条件介绍保持方法

  • 重复保持方法是保持方法的迭代,即它是保持方法的重复执行。
  • 这个方法可以重复——'K' 次/迭代。
  • 在这种方法中,我们采用数据集的随机抽样。数据集是随机分区的,而不是基于任何公式。

[注意:随机抽样是指从总体中选择“n”个人,选择方式是每组“n”个人都有相同的机会被选中。 ]

示例 – 考虑一个随机分层为训练集和测试集的数据集。我们对“K”次迭代重复保持方法。让我们假设 K=3

  • 上述迭代中阴影部分为测试集,未阴影部分为训练集,是对数据集进行分层后得到的。
  • 在第一次迭代“ITERATION – 01”中,基于属于训练集的数据项/示例构建分类器。构建后的分类器应用于测试集。获得的结果是误差估计,例如“E1”。
  • 在第二次迭代'ITERATION – 02'中,第一次迭代是随机排列的。现在基于训练集数据项/示例构建分类器。构建后的分类器应用于测试集。获得的结果是误差估计,例如“E2”。
  • 在第三次迭代'ITERATION – 03'中,第二次迭代是随机排列的。现在基于训练集数据项/示例构建分类器。构建后的分类器应用于测试集。获得的结果是误差估计,例如“E3”。
  • 迭代因此重复'K=3'次。
  • 要找到整体误差估计,我们可以使用公式 -

E=1 / K \sum_{i=1}^{k} E i \quad \text { or } \quad E=E 1+E 2+E 3 / 3


问题:重叠测试集问题。

  • 由于我们将数据集随机划分为训练集和测试集,因此有些数据项/示例根本无法放入训练集中

例子 -