📜  无监督机器学习

📅  最后修改于: 2020-09-27 00:57:28             🧑  作者: Mango

无监督机器学习

在上一个主题中,我们学习了监督式机器学习,其中在训练数据的监督下使用标记数据训练模型。但是在很多情况下,我们没有标记数据,需要从给定的数据集中找到隐藏的模式。因此,要解决机器学习中的此类情况,我们需要无监督的学习技术。

什么是无监督学习?

顾名思义,无监督学习是一种机器学习技术,其中不使用训练数据集对模型进行监督。相反,模型本身会从给定的数据中找到隐藏的模式和见解。可以将其与学习新事物时在人脑中进行的学习相提并论。可以定义为:

无监督学习是一种机器学习,其中使用未标记的数据集训练模型,并允许模型在没有任何监督的情况下作用于该数据。

无监督学习不能直接应用于回归或分类问题,因为与有监督学习不同,我们有输入数据,但没有相应的输出数据。无监督学习的目的是找到数据集的基础结构,根据相似性对数据进行分组,并以压缩格式表示该数据集。

示例:假设给了无监督学习算法一个输入数据集,其中包含不同类型的猫和狗的图像。该算法永远不会在给定的数据集上训练,这意味着它对数据集的特征一无所知。无监督学习算法的任务是自行识别图像特征。无监督学习算法将根据图像之间的相似性,将图像数据集聚类成组,从而执行此任务。

为什么要使用无监督学习?

以下是描述无监督学习的重要性的一些主要原因:

  • 无监督学习有助于从数据中找到有用的见解。
  • 无监督学习与人类根据自己的经验学习思考非常相似,这使其更接近真实的AI。
  • 无监督学习对未标记和未分类的数据起作用,这使得无监督学习更加重要。
  • 在现实世界中,我们并不总是具有输入数据和相应的输出,因此要解决此类情况,我们需要无监督学习。

无监督学习的工作

下图可以理解无监督学习的工作方式:

在这里,我们采用了未标记的输入数据,这意味着未对它进行分类并且也没有给出相应的输出。现在,将这些未标记的输入数据馈送到机器学习模型以对其进行训练。首先,它将解释原始数据以从数据中找到隐藏的模式,然后将应用合适的算法,例如k均值聚类,决策树等。

一旦应用了合适的算法,该算法就会根据对象之间的相似性和差异将数据对象分为几组。

无监督学习算法的类型:

无监督学习算法可以进一步分为两类问题:

  • 聚类 :聚类是一种将对象分组为聚类的方法,以使具有最大相似性的对象保留在一个组中,并且与另一个组的对象具有很少或没有相似性。聚类分析发现数据对象之间的共性,并根据这些共性的存在与否将其分类。
  • 关联 :关联规则是一种无监督的学习方法,用于在大型数据库中查找变量之间的关系。它确定在数据集中一起出现的一组项目。关联规则使营销策略更有效。例如购买X项(假设是面包)的人也倾向于购买Y(黄油/果酱)项。关联规则的典型示例是市场篮子分析。

注意:我们将在后面的章节中学习这些算法。

无监督学习算法:

以下是一些流行的无监督学习算法的列表:

  • K均值聚类
  • KNN(k最近邻)
  • 层次聚类
  • 异常检测
  • 神经网络
  • 主成分分析
  • 独立成分分析
  • Apriori算法
  • 奇异值分解

无监督学习的优势

  • 与无监督学习相比,无监督学习用于更复杂的任务,因为在无监督学习中,我们没有标记的输入数据。
  • 最好采用无监督学习,因为与标记数据相比,它更容易获得未标记数据。

无监督学习的缺点

  • 本质上,无监督学习比无监督学习更困难,因为它没有相应的输出。
  • 无监督学习算法的结果可能不那么准确,因为未标记输入数据,并且算法事先也不知道确切的输出。