本文讨论了机器学习问题的类别,以及机器学习领域中使用的术语。
机器学习问题的类型
有多种方法可以对机器学习问题进行分类。在这里,我们讨论最明显的。
1. 基于学习系统可用的学习“信号”或“反馈”的性质
- 监督学习:向计算机呈现示例输入及其所需输出,由“老师”给出,目标是学习将输入映射到输出的一般规则。训练过程一直持续到模型在训练数据上达到所需的准确度水平。一些现实生活中的例子是:
- 图像分类:您使用图像/标签进行训练。然后在未来你给出一个新的图像,期望计算机能够识别新的对象。
- 市场预测/回归:您用历史市场数据训练计算机,并要求计算机预测未来的新价格。
- 无监督学习:没有给学习算法提供标签,让它自己在输入中寻找结构。它用于对不同组中的人口进行聚类。无监督学习本身就是一个目标(发现数据中的隐藏模式)。
- 聚类:你要求计算机将相似的数据分成簇,这在研究和科学中是必不可少的。
- 高维可视化:利用计算机帮助我们可视化高维数据。
- 生成模型:模型捕获输入数据的概率分布后,将能够生成更多数据。这对于使您的分类器更加健壮非常有用。
一个简单的图表清楚地说明了监督和无监督学习的概念,如下所示:
如您所见,监督学习中的数据是有标签的,而无监督学习中的数据是未标签的。
- 半监督学习:有大量输入数据而只有部分数据被标记的问题,称为半监督学习问题。这些问题介于有监督和无监督学习之间。例如,一个照片档案,其中只有一些图像被标记(例如狗、猫、人),而大多数图像没有标记。
- 强化学习:计算机程序与动态环境交互,在该环境中它必须执行某个目标(例如驾驶车辆或与对手玩游戏)。该程序在导航其问题空间时会获得奖励和惩罚方面的反馈。
2.基于机器学习系统所需的“输出”
- 分类:输入分为两个或更多类,学习者必须生成一个模型,将看不见的输入分配给这些类中的一个或多个(多标签分类)。这通常以受监督的方式解决。垃圾邮件过滤是分类的一个例子,其中输入是电子邮件(或其他)消息,类别是“垃圾邮件”和“非垃圾邮件”。
- 回归:这也是一个监督学习问题,但输出是连续的而不是离散的。例如,使用历史数据预测股票价格。
两个不同数据集的分类和回归示例如下所示:
- 聚类:在这里,一组输入将被分成几组。与分类不同,这些组是事先不知道的,这使得这通常是一项无监督的任务。
正如您在下面的示例中所看到的,给定的数据集点已分为可通过红色、绿色和蓝色颜色识别的组。 - 密度估计:任务是找到某个空间中输入的分布。
- 降维:通过将输入映射到低维空间来简化输入。主题建模是一个相关的问题,程序被赋予一个人类语言文档列表,并负责找出哪些文档涵盖了相似的主题。
在这些机器学习任务/问题的基础上,我们有许多用于完成这些任务的算法。一些常用的机器学习算法有线性回归、逻辑回归、决策树、SVM(支持向量机)、朴素贝叶斯、KNN(K 个最近邻)、K-Means、随机森林等。
注意:所有这些算法将在接下来的文章中介绍。
机器学习术语
- 模型
模型是通过应用某种机器学习算法从数据中学习到的特定表示。模型也称为假设。 - 特征
特征是我们数据的一个单独的可测量属性。一组数字特征可以方便地用特征向量来描述。特征向量作为模型的输入。例如,为了预测水果,可能会有颜色、气味、味道等特征。
注意:选择信息丰富的、有辨别力的和独立的特征是有效算法的关键步骤。我们通常使用特征提取器从原始数据中提取相关特征。 - 目标(标签)
目标变量或标签是我们的模型要预测的值。对于特征部分讨论的水果示例,每组输入的标签将是水果的名称,如苹果、橙子、香蕉等。 - 训练
这个想法是给出一组输入(特征)和它的预期输出(标签),所以在训练之后,我们将有一个模型(假设),然后将新数据映射到训练过的类别之一。 - 预言
一旦我们的模型准备好,它就可以被提供一组输入,它将提供一个预测的输出(标签)。
下图清楚了上述概念:
相关文章:
- 揭开机器学习的神秘面纱
- 机器学习应用
参考:
- https://en.wikipedia.org/wiki/Machine_learning
- https://leonardoaraujosantos.gitbooks.io/artificial-intelligence/
- http://machinelearningmastery.com/data-terminology-in-machine-learning/