📅  最后修改于: 2021-01-08 10:08:07             🧑  作者: Mango
R分类
分类算法的思想非常简单。我们通过分析训练数据集来预测目标类别。我们使用训练数据集获得更好的边界条件,这些条件可用于确定每个目标类别。确定边界条件后,下一个任务是预测目标类别。整个过程称为分类。
分类算法有一些要点:
- 分类器这是一种将输入数据映射到特定类别的算法。
- 分类模型分类模型试图从给出的用于训练的输入值中得出一些结论。该结论将预测新数据的类别标签/类别。
- 功能这是正在观察的事件的单个可测量属性。
- 二进制分类这是一个分类任务,有两个可能的结果。例如,性别分类,只有两种可能的结果,即男性和女性。
- 多类别分类这是一个分类任务,其中对两个以上的类别进行分类。多类别分类的一个示例是:动物可以是狗或猫,但不能同时是两者。
- 多标签分类这是一个分类任务,其中每个样本都映射有一组目标标签。多标签分类的一个示例是:可以同时涉及一个人,一个位置和一个运动的新闻文章。
分类算法的类型
在R中,分类算法大致分为以下几种类型:
- 线性分类器在机器学习中,统计分类的主要任务是使用对象的特征来查找对象所属的类。通过基于特征的线性组合的值做出分类决策来实现此任务。在R中,有三种线性分类算法,如下所示:
- 逻辑回归
- 朴素贝叶斯分类器
- 费舍尔线性判别式
- 支持向量机支持向量机是一种监督学习算法,用于分析用于分类和回归分析的数据。在SVM中,将每个数据项绘制为n维空间中的一个点,其中包含每个属性的值,即特定坐标的值。最小二乘支持向量机是R中最常用的分类算法。
- 二次分类器二次分类算法基于贝叶斯定理。这些分类器算法的分类方法与逻辑回归不同。在逻辑回归中,可以直接得出特定观测值(X = x)的类别(Y = k)的观测概率。但是在二次分类中,观察是通过以下两个步骤完成的:
- 第一步,我们确定每个组或类的输入X的分布。
- 之后,我们借助贝叶斯定理翻转分布以计算概率。
- 核估计核估计是一种估计连续随机变量的概率密度函数(PDF)的非参数方法。它是非参数的,因为它不假定变量的隐式分布。本质上,在每个基准上都创建了一个以基准为中心的内核函数。它确保内核关于基准对称。然后通过将所有这些内核函数相加并除以数据数量来估计PDF,以确保它满足PDF的两个属性:
- PDF的所有可能值都应为非负数。
- PDF在其支持集上的固定积分应等于1。
在R中,k最近邻是用于分类的最常用的核估计算法。
- 决策树决策树是一种监督学习算法,用于分类和回归任务。在R中,决策树分类器是在R机器学习插入符号包的帮助下实现的。随机森林算法是R中最常用的决策树算法。
- 神经网络神经网络是另一种分类器算法,受人脑启发,可以执行特定任务或函数。这些算法主要用于R中的图像分类。要实现神经网络算法,我们必须安装Neuronet软件包。
- 学习向量量化学习向量量化是一种用于二元和多类问题的分类算法。通过学习训练数据集,LVQ模型可以创建代表类区域的码本向量。它们包含根据其匹配级别放置在各个类周围的元素。如果该元素匹配,则它移近目标类,如果不匹配,则它继续。