本文讨论了机器学习问题的类别以及在机器学习领域中使用的术语。
机器学习问题的类型
有多种方法可以对机器学习问题进行分类。在这里,我们讨论最明显的那些。
1.根据学习性质,为学习系统提供“信号”或“反馈”
- 有监督的学习:向计算机提供示例输入及其所需的输出(由“老师”给出),目标是学习将输入映射到输出的一般规则。训练过程将继续进行,直到模型在训练数据上达到所需的准确性水平为止。现实生活中的一些例子是:
- 图像分类:您可以训练图像/标签。然后在将来您提供一张新图像,期望计算机将识别出该新对象。
- 市场预测/回归:您使用历史市场数据训练计算机,并要求计算机预测未来的新价格。
- 无监督学习:没有为学习算法提供标签,仅靠学习算法就可以在输入中查找结构。它用于对不同组中的人口进行聚类。无监督学习本身就是一个目标(发现数据中的隐藏模式)。
- 聚类:您要求计算机将相似的数据分为多个簇,这在研究和科学中至关重要。
- 高维可视化:使用计算机帮助我们可视化高维数据。
- 生成模型:模型捕获输入数据的概率分布后,将能够生成更多数据。这对于使分类器更健壮非常有用。
下面显示了一个简单的图表,该图表清除了有监督和无监督学习的概念:
您可以清楚地看到,监督学习中的数据被标记,而无监督学习中的数据则被标记。
- 半监督学习:您拥有大量输入数据且仅对部分数据进行了标记的问题称为半监督学习问题。这些问题介于有监督的学习和无监督的学习之间。例如,只有一些图像被标记的照片档案库(例如,狗,猫,人),而大多数图像未被标记。
- 强化学习:计算机程序与动态环境进行交互,在该环境中计算机必须执行特定的目标(例如驾驶车辆或与对手玩游戏)。该程序在其问题空间中导航时,会获得奖励和惩罚方面的反馈。
2.基于机器学习系统所需的“输出”
- 分类:输入被分为两个或多个类别,学习者必须产生一个模型,将看不见的输入分配给这些类别中的一个或多个(多标签分类)。这通常是在有监督的方式下解决的。垃圾邮件过滤是分类的示例,其中输入是电子邮件(或其他)消息,类别是“垃圾邮件”和“非垃圾邮件”。
- 回归:这也是有监督的学习问题,但是输出是连续的,而不是离散的。例如,使用历史数据预测股票价格。
下面显示了两个不同数据集上的分类和回归示例:
- 聚类:此处,一组输入将分为几组。与分类不同,这些组是事先未知的,这通常是一项无人监督的任务。
在下面的示例中可以看到,给定的数据集点已被划分为可通过红色,绿色和蓝色识别的组。 - 密度估计:任务是在某些空间中找到输入的分布。
- 降维:通过将输入映射到低维空间来简化输入。主题建模是一个相关的问题,其中给程序提供了一系列人类语言文档,并负责找出哪些文档涵盖了相似的主题。
基于这些机器学习任务/问题,我们有许多用于完成这些任务的算法。一些常用的机器学习算法是线性回归,逻辑回归,决策树,SVM(支持向量机),朴素贝叶斯,KNN(K最近邻),K均值,随机森林等。
注意:所有这些算法将在以后的文章中介绍。
机器学习术语
- 模型
模型是通过应用某些机器学习算法从数据中学到的特定表示形式。模型也称为假设。 - 特征
功能是我们数据的单个可测量属性。一组数字特征可以通过特征向量方便地描述。特征向量作为模型的输入。例如,为了预测水果,可能会有颜色,气味,味道等特征。
注意:选择有效,区分和独立的功能是有效算法的关键步骤。我们通常使用特征提取器从原始数据中提取相关特征。 - 目标(标签)
目标变量或标签是我们的模型要预测的值。对于功能部分讨论的水果示例,带有每组输入的标签将是水果的名称,例如苹果,橙子,香蕉等。 - 训练
这个想法是给出一组输入(特征)和它的预期输出(标签),因此在训练之后,我们将得到一个模型(假设),该模型将新数据映射到一个训练过的类别中。 - 预言
一旦我们的模型准备好了,就可以向它提供一组输入,它将向它们提供预测的输出(标签)。
下图清除了以上概念:
相关文章:
- 揭秘机器学习
- 机器学习应用
参考:
- https://zh.wikipedia.org/wiki/机器学习
- https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/
- http://machinelearningmastery.com/data-terminology-in-machine-learning/