📜  保持方法介绍

📅  最后修改于: 2021-08-25 18:06:26             🧑  作者: Mango

保持方法是评估分类器的最简单方法。在这种方法中,数据集(数据项或示例的集合)被分为两组,分别称为Training set和Test set

分类器进行函数于目标类别或类指定一个给定集合中的数据项目。

例子 –
我们收件箱中的电子邮件分为垃圾邮件和非垃圾邮件。

应该对分类器进行评估以找出其准确性,错误率和错误估计。可以使用各种方法来完成。分类器评估中最原始的方法之一是“保持方法”

在保持方法中,对数据集进行了分区,这样–最大数据属于训练集,其余数据属于测试集。

例子 –
如果存在20个数据项,则将12个放置在训练集中,将其余8个放置在测试集中。

  • 将数据集分为两组后,训练集用于构建模型/分类器。
  • 构建分类器后,我们使用测试集中的数据项来测试模型/分类器的准确性,错误率和错误估计。

但是,记住关于保持方法的两个陈述至关重要。这些都是 :

如果将最大可能的数据项放置在训练集中以构建模型/分类器,则分类器的错误率和估计值将非常低,而准确性将很高。这是好的分类器/模型的标志。

例子 –
学生“ gfg”由老师指导。老师教她所有可能出现在考试中的主题。因此,她倾向于在考试中犯很少的错误,从而表现良好。

如果使用更多的训练数据来构造分类器,则它可以对测试集中使用的所有数据进行限定,以对其进行测试(分类器)。

如果测试集中存在更多数量的数据项,则将其用于测试使用训练集构建的分类器。我们可以观察到分类器在准确性,错误率和估计方面的更准确评估。

例子 –
学生“ gfg”由老师指导。老师教她一些主题,这些主题可能会在考试中出现。如果在此指导下对学生“ gfg”进行了多次考试,则可以准确确定学生的弱点和强项。

如果使用更多测试数据评估构造的分类器,则可以准确确定错误率,错误估计和准确性。

问题
在将整个数据集划分为训练集和测试集两部分的过程中,如果所有属于类别GFG1的数据项都完全放置在测试集中,则GFG1类的数据项都不在训练集中。显然,没有使用类别GFG1的数据项来训练构建的模型/分类器。

解决方案
分层是一种技术,利用该技术将属于类别GFG1的数据项划分并平等地分为两个数据集,即训练集和测试集。这样,模型/分类器由属于分类-GFG1的数据项训练。

例子 –
属于类别GFG1的所有四个数据项在这里均等地划分并放置,每个数据项分为两个数据集-训练集和测试集。