监督学习
顾名思义,监督学习的存在是作为老师的监督者。基本上,监督学习是指当我们使用标记良好的数据来教学或训练机器时。这意味着某些数据已经被标记了正确的答案。之后,机器会提供一组新的示例(数据),以便监督学习算法分析训练数据(一组训练示例)并从标记的数据中产生正确的结果。
例如,假设您得到一个装有不同种类水果的篮子。现在的第一步是像这样对所有不同水果的机器进行培训:
- 如果对象的形状是圆形的,顶部有一个凹陷,颜色是红色,则将其标记为– Apple 。
- 如果对象的形状是具有绿黄色的长弯曲圆柱体,则将其标记为– Banana 。
现在假设在训练数据后,您给了一个新的单独的水果,例如从篮子里说“香蕉”,并要求对其进行识别。
由于机器已经从以前的数据中学到了东西,所以这次必须明智地使用它。它将首先根据形状和颜色对水果进行分类,然后将其命名为BANANA,并将其归类为Banana类别。因此,机器从训练数据(包含水果的篮子)中学习事物,然后将知识应用于测试数据(新水果)。
监督学习分为两类算法:
- 分类:分类问题是当输出变量是类别时,例如“红色”或“蓝色”或“疾病”和“没有疾病”。
- 回归:回归问题是输出变量是实际值(例如“美元”或“权重”)时。
监督学习处理或学习“标记”数据。这意味着某些数据已经用正确答案进行了标记。
类型:-
- 回归
- 逻辑回归
- 分类
- 朴素贝叶斯分类器
- K-NN(k个最近的邻居)
- 决策树
- 支持向量机
好处:-
- 监督学习允许收集数据并从以前的经验中产生数据输出。
- 借助经验帮助优化性能标准。
- 有监督的机器学习有助于解决各种类型的现实世界计算问题。
缺点:
- 对大数据进行分类可能具有挑战性。
- 监督学习的培训需要大量的计算时间。因此,这需要很多时间。
无监督学习
无监督学习是使用既未分类也未标记的信息训练机器,并允许算法在没有指导的情况下对信息进行操作。在这里,机器的任务是根据相似性,模式和差异对未分类的信息进行分组,而无需事先对数据进行训练。
与监督学习不同,没有提供任何老师,这意味着不会对机器进行培训。因此,机器本身只能在未标记的数据中找到隐藏的结构。
例如,假设给定一张图像,其中包含从未见过的狗和猫。
因此,该机器不了解狗和猫的功能,因此我们无法将其归类为“狗和猫”。但是它可以根据它们的相似性,模式和差异对其进行分类,即,我们可以轻松地将以上图片分为两部分。第一部分可能包含其中有狗的所有照片,第二部分可能包含其中有猫的所有照片。在这里您没有学过任何东西,这意味着没有培训数据或示例。
它允许模型自行工作以发现以前未检测到的模式和信息。它主要处理未标记的数据。
无监督学习分为两类算法:
- 聚类:一个聚类问题是您想要发现数据中的固有分组,例如通过购买行为对客户进行分组。
- 关联:关联规则学习问题是您想要发现描述数据大部分的规则的地方,例如购买X的人也倾向于购买Y。
无监督学习的类型:
聚类
- 独占(分区)
- 结块的
- 重叠
- 概率论
聚类类型:-
- 层次聚类
- K均值聚类
- 主成分分析
- 奇异值分解
- 独立成分分析
有监督与无监督机器学习
Parameters | Supervised machine learning | Unsupervised machine learning |
Input Data | Algorithms are trained using labeled data. | Algorithms are used against data that is not labeled |
Computational Complexity | Simpler method | Computationally complex |
Accuracy | Highly accurate | Less accurate |