监督学习
顾名思义,监督式学习有监督者作为教师。基本上,监督学习是指我们使用标记良好的数据来教授或训练机器。这意味着一些数据已经被标记为正确答案。之后,机器被提供一组新的示例(数据),以便监督学习算法分析训练数据(训练示例集)并从标记数据中产生正确的结果。
例如,假设给你一个装满不同种类水果的篮子。现在第一步是用所有不同的水果一一训练机器,如下所示:
- 如果物体的形状是圆形的,顶部有一个凹陷,颜色是红色的,那么它会被标记为——苹果。
- 如果物体的形状是一个长长的弯曲圆柱体,呈绿黄色,那么它就会被标记为 – Banana 。
现在假设在训练数据后,你给了一个新的单独的水果,比如篮子里的香蕉,并要求识别它。
由于机器已经从以前的数据中学到了东西,这次必须明智地使用它。它将首先根据水果的形状和颜色对水果进行分类,并将水果名称确认为 BANANA 并将其归入 Banana 类别。因此,机器从训练数据(包含水果的篮子)中学习事物,然后将知识应用于测试数据(新水果)。
监督学习分为两类算法:
- 分类:分类问题是当输出变量是一个类别时,例如“红色”或“蓝色”或“疾病”和“无疾病”。
- 回归:回归问题是当输出变量是真实值时,例如“美元”或“重量”。
监督学习处理或学习“标记”数据。这意味着某些数据已经被标记为正确答案。
类型:-
- 回归
- 逻辑回归
- 分类
- 朴素贝叶斯分类器
- K-NN(k 个最近邻)
- 决策树
- 支持向量机
优点:-
- 监督学习允许收集数据并从以前的经验中产生数据输出。
- 借助经验帮助优化性能标准。
- 监督机器学习有助于解决各种类型的现实世界计算问题。
缺点:-
- 对大数据进行分类可能具有挑战性。
- 监督学习的训练需要大量的计算时间。所以,这需要很多时间。
无监督学习
无监督学习是使用既未分类也未标记的信息训练机器,并允许算法在没有指导的情况下对该信息采取行动。在这里,机器的任务是根据相似性、模式和差异对未分类的信息进行分组,而无需事先对数据进行任何训练。
与监督学习不同,不提供任何老师,这意味着不会对机器进行任何培训。因此,机器被限制在自己寻找未标记数据中的隐藏结构。
例如,假设给定一张它从未见过的狗和猫的图像。
因此机器不知道狗和猫的特征,所以我们不能把它归类为“狗和猫”。但是它可以根据它们的相似性、模式和差异来对它们进行分类,即我们可以很容易地将上面的图片分为两部分。第一部分可能包含所有有狗的图片,第二部分可能包含所有有猫的图片。在这里你之前什么都没学到,这意味着没有训练数据或示例。
它允许模型自行工作以发现以前未检测到的模式和信息。它主要处理未标记的数据。
无监督学习分为两类算法:
- 聚类:聚类问题是您想要发现数据中固有的分组,例如按购买行为对客户进行分组。
- 关联:关联规则学习问题是您想要发现描述大部分数据的规则,例如购买 X 的人也倾向于购买 Y。
无监督学习的类型:-
聚类
- 独占(分区)
- 凝聚的
- 重叠
- 概率的
聚类类型:-
- 层次聚类
- K均值聚类
- 主成分分析
- 奇异值分解
- 独立成分分析
监督与无监督机器学习
Parameters | Supervised machine learning | Unsupervised machine learning |
Input Data | Algorithms are trained using labeled data. | Algorithms are used against data that is not labeled |
Computational Complexity | Simpler method | Computationally complex |
Accuracy | Highly accurate | Less accurate |