📜  毫升 |半监督学习

📅  最后修改于: 2022-05-13 01:58:09.131000             🧑  作者: Mango

毫升 |半监督学习

今天的机器学习算法可以大致分为三类,监督学习、无监督学习和强化学习。抛开强化学习不谈,机器学习问题的主要两类是监督学习和无监督学习。两者之间的基本区别在于监督学习数据集具有与每个元组关联的输出标签,而无监督学习数据集则没有。

任何监督学习算法最基本的缺点是数据集必须由机器学习工程师或数据科学家手工标记。这是一个非常昂贵的过程,尤其是在处理大量数据时。任何无监督学习最基本的缺点是它的应用范围是有限的

为了克服这些缺点,引入了半监督学习的概念。在这种类型的学习中,算法是根据标记和未标记数据的组合进行训练的。通常,这种组合将包含非常少量的标记数据和非常大量的未标记数据。所涉及的基本过程是,程序员首先使用无监督学习算法对相似数据进行聚类,然后使用现有的标记数据对其余未标记数据进行标记。这类算法的典型用例有一个共同的特性——未标记数据的获取相对便宜,而对所述数据进行标记则非常昂贵。

直观地,可以将三种类型的学习算法想象为学生在家庭和学校的老师监督下的监督学习,学生必须自己弄清楚概念的无监督学习和老师的半监督学习在课堂上教授一些概念,并根据相似的概念给出问题作为作业。

半监督算法假设以下有关数据



  1. 连续性假设:该算法假设彼此距离较近的点更有可能具有相同的输出标签。
  2. 聚类假设:数据可以分成离散的聚类,同一聚类中的点更有可能共享一个输出标签。
  3. 流形假设:数据大约位于比输入空间维度低得多的流形上。该假设允许使用在流形上定义的距离和密度。

半监督学习的实际应用——

  1. 语音分析:由于音频文件的标记是一项非常密集的任务,半监督学习是解决这个问题的一种非常自然的方法。
  2. 互联网内容分类:标记每个网页是一个不切实际和不可行的过程,因此使用半监督学习算法。甚至 Google 搜索算法也使用半监督学习的变体来对网页与给定查询的相关性进行排名。
  3. 蛋白质序列分类:由于 DNA 链通常非常大,因此半监督学习在该领域的兴起迫在眉睫。

Google 在 2016 年推出了一种新的半监督学习工具,称为 Google Expander,您可以在此处了解更多信息。