📅  最后修改于: 2020-11-30 05:24:08             🧑  作者: Mango
Apache Mahout是一个高度可扩展的机器学习库,使开发人员可以使用优化的算法。 Mahout实现了流行的机器学习技术,例如推荐,分类和聚类。因此,在继续学习之前,先简短介绍一下机器学习是明智的。
机器学习是科学的一个分支,它以对系统进行编程的方式进行处理,以使它们能够自动学习并随着经验的增长而提高。在这里,学习意味着识别和理解输入数据并根据所提供的数据做出明智的决定。
根据所有可能的输入来满足所有决策是非常困难的。为了解决这个问题,开发了算法。这些算法从特定数据和过去的经验中积累了统计,概率论,逻辑,组合优化,搜索,强化学习和控制理论的知识。
所开发的算法构成了各种应用程序的基础,例如:
机器学习是一个广阔的领域,它涵盖了其所有功能,已经超出了本教程的范围。有多种方法可以实现机器学习技术,但是最常用的方法是有监督和无监督学习。
监督学习涉及从可用的培训数据中学习函数。监督学习算法会分析训练数据并产生一个推断函数,该函数可用于映射新示例。监督学习的常见示例包括:
有许多监督学习算法,例如神经网络,支持向量机(SVM)和朴素贝叶斯分类器。 Mahout实现了朴素贝叶斯分类器。
无监督学习无需标签数据即可进行无标签数据训练。无监督学习是一种非常强大的工具,可用于分析可用数据并查找模式和趋势。它最常用于将相似的输入聚类为逻辑组。无监督学习的常见方法包括:
推荐是一种流行的技术,可根据用户信息(如以前的购买,点击和评分)提供紧密的推荐。
亚马逊使用此技术来显示您可能感兴趣的推荐商品的列表,从而从您过去的操作中汲取信息。 Amazon后面有一些推荐器引擎,它们可以捕获用户行为并根据您先前的操作推荐选定的项目。
Facebook使用推荐技术来识别和推荐“您可能认识的人”。
分类,也称为分类,是一种机器学习技术,使用已知数据来确定应如何将新数据分类为一组现有类别。分类是监督学习的一种形式。
邮件服务提供商,例如Yahoo!和Gmail使用此技术来确定是否应将新邮件归类为垃圾邮件。分类算法通过分析将某些邮件标记为垃圾邮件的用户习惯来进行自我训练。基于此,分类器决定将来的邮件应放置在您的收件箱中还是垃圾邮件文件夹中。
iTunes应用程序使用分类来准备播放列表。
聚类用于根据共同特征形成相似数据的组或簇。聚类是无监督学习的一种形式。
搜索引擎,例如Google和Yahoo!使用聚类技术将具有相似特征的数据分组。
新闻组使用聚类技术根据相关主题对各种文章进行分组。
聚类引擎将完全检查输入数据,并根据数据的特征决定将其归为哪个聚类。看下面的例子。
我们的教程库包含有关各个主题的主题。当我们在TutorialsPoint收到一个新教程时,它将由集群引擎进行处理,该集群引擎会根据其内容确定应将其分组的位置。