分类入门 - 芒果文档

介绍

顾名思义，分类是将事物“分类”为子类别的任务。但是，通过机器！如果这听起来并不多，想象一下您的计算机能够区分您和陌生人。在土豆和西红柿之间。在 A 级和 F- 之间。

是的。现在听起来很有趣！

在机器学习和统计中，分类是根据包含观察值的训练数据集以及其类别成员资格已知来识别新观察值属于一组类别（子种群）中的哪一个的问题。

分类类型

分类有两种：

图：二元和多类分类。这里 x1 和 x2 是我们预测类别的变量。

分类是如何工作的？

假设我们必须根据称为特征的 3 个变量来预测给定患者是否患有某种疾病。

这意味着有两种可能的结果：

这是一个二元分类问题。

我们有一组称为训练数据集的观察结果，其中包含具有实际分类结果的样本数据。我们在这个数据集上训练一个名为 Classifier 的模型，并使用该模型来预测某个患者是否会患病。

结果，因此现在取决于：

以下是分类任务的广义框图。

广义分类框图。

分类器的类型（算法）

有各种类型的分类器。他们之中有一些是：

这些方法的详细描述超出了一篇文章！

分类的实际应用

执行

让我们亲身体验一下分类的工作原理。我们将研究各种分类器，并在众所周知的标准数据集 Iris 数据集上查看它们的性能的相当简单的分析比较。

Python实现 – 项目的 Github 链接

结论

分类是一个非常广阔的研究领域。尽管它只包含机器学习的一小部分，但它是最重要的部分之一。

目前为止就这样了。在下一篇文章中，我们将看到分类在实践中是如何工作的，并了解Python代码。