📅  最后修改于: 2020-09-27 00:57:28             🧑  作者: Mango
在上一个主题中,我们学习了监督式机器学习,其中在训练数据的监督下使用标记数据训练模型。但是在很多情况下,我们没有标记数据,需要从给定的数据集中找到隐藏的模式。因此,要解决机器学习中的此类情况,我们需要无监督的学习技术。
顾名思义,无监督学习是一种机器学习技术,其中不使用训练数据集对模型进行监督。相反,模型本身会从给定的数据中找到隐藏的模式和见解。可以将其与学习新事物时在人脑中进行的学习相提并论。可以定义为:
无监督学习是一种机器学习,其中使用未标记的数据集训练模型,并允许模型在没有任何监督的情况下作用于该数据。
无监督学习不能直接应用于回归或分类问题,因为与有监督学习不同,我们有输入数据,但没有相应的输出数据。无监督学习的目的是找到数据集的基础结构,根据相似性对数据进行分组,并以压缩格式表示该数据集。
示例:假设给了无监督学习算法一个输入数据集,其中包含不同类型的猫和狗的图像。该算法永远不会在给定的数据集上训练,这意味着它对数据集的特征一无所知。无监督学习算法的任务是自行识别图像特征。无监督学习算法将根据图像之间的相似性,将图像数据集聚类成组,从而执行此任务。
以下是描述无监督学习的重要性的一些主要原因:
下图可以理解无监督学习的工作方式:
在这里,我们采用了未标记的输入数据,这意味着未对它进行分类并且也没有给出相应的输出。现在,将这些未标记的输入数据馈送到机器学习模型以对其进行训练。首先,它将解释原始数据以从数据中找到隐藏的模式,然后将应用合适的算法,例如k均值聚类,决策树等。
一旦应用了合适的算法,该算法就会根据对象之间的相似性和差异将数据对象分为几组。
无监督学习算法可以进一步分为两类问题:
注意:我们将在后面的章节中学习这些算法。
以下是一些流行的无监督学习算法的列表: