📅  最后修改于: 2020-09-27 02:13:22             🧑  作者: Mango
众所周知,监督机器学习算法可以大致分为回归算法和分类算法。在回归算法中,我们已经预测了连续值的输出,但是要预测分类值,我们需要分类算法。
分类算法是一种监督学习技术,用于根据训练数据识别新观察的类别。在分类中,程序从给定的数据集或观察值中学习,然后将新观察值分类为多个类或组。例如,是或否,0或1,垃圾邮件或非垃圾邮件,猫或狗等。类可以称为目标/标签或类别。
与回归不同,分类的输出变量是类别,而不是值,例如“绿色或蓝色”,“水果或动物”等。由于分类算法是一种有监督的学习技术,因此它需要标记的输入数据,表示它包含具有相应输出的输入。
在分类算法中,离散输出函数(y)映射到输入变量(x)。
y=f(x), where y = categorical output
机器学习分类算法的最佳示例是电子邮件垃圾邮件检测器。
分类算法的主要目标是识别给定数据集的类别,这些算法主要用于预测分类数据的输出。
使用下图可以更好地理解分类算法。在下图中,有两个类,即A类和B类。这些类具有彼此相似但与其他类不同的功能。
在数据集上实现分类的算法称为分类器。有两种类型的分类:
在分类问题中,有两种类型的学习者:
分类算法可以进一步分为两大类:
注意:我们将在后面的章节中学习上述算法。
模型完成后,有必要评估其性能;它是分类模型或回归模型。因此,为了评估分类模型,我们有以下几种方法:
1.对数损失或交叉熵损失:
?(ylog(p)+(1?y)log(1?p))
其中y =实际输出,p =预测输出。
2.混淆矩阵:
Actual Positive | Actual Negative | |
---|---|---|
Predicted Positive | True Positive | False Positive |
Predicted Negative | False Negative | True Negative |
3. AUC-ROC曲线:
分类算法可以在不同的地方使用。以下是分类算法的一些流行用例: