📜  Mahout-简介

📅  最后修改于: 2020-11-30 05:23:39             🧑  作者: Mango


我们生活在一个时代,那里信息丰富。信息过载已经达到了一个很高的高度,有时甚至很难管理我们的小邮箱!想象一下,每天要收集和管理一些流行网站(例如Facebook,Twitter和Youtube等)的数据量和记录。即使是鲜为人知的网站也可以批量接收大量信息。

通常,我们依靠数据挖掘算法来分析大量数据以识别趋势并得出结论。但是,除非计算任务在分布在云上的多台计算机上运行,否则任何数据挖掘算法都无法高效处理大量数据集并快速提供结果。

现在,我们有了新的框架,可以将计算任务分解为多个段,并在不同的计算机上运行每个段。 Mahout是这样一种数据挖掘框架,通常在其后台与Hadoop基础架构一起运行,以管理大量数据。

什么是Apache Mahout?

一个驯象师是一个以大象为主人的大象。该名称来自与Apache Hadoop的紧密联系,后者使用大象作为徽标。

Hadoop是Apache的开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。

Apache Mahout是一个开源项目,主要用于创建可扩展的机器学习算法。它实现了流行的机器学习技术,例如:

  • 建议
  • 分类
  • 聚类

Apache Mahout于2008年作为Apache Lucene的子项目开始。2010年,Mahout成为Apache的顶级项目。

Mahout的特点

下面列出了Apache Mahout的原始功能。

  • Mahout的算法是在Hadoop之上编写的,因此它在分布式环境中运行良好。 Mahout使用Apache Hadoop库在云中进行有效扩展。

  • Mahout为编码器提供了一个现成的框架,用于对大量数据执行数据挖掘任务。

  • Mahout使应用程序可以快速有效地分析大量数据。

  • 包括几个启用MapReduce的聚类实现,例如k均值,模糊k均值,Canopy,Dirichlet和Mean-Shift。

  • 支持分布式朴素贝叶斯和互补朴素贝叶斯分类实现。

  • 带有用于分布式编程的分布式适应性函数。

  • 包括矩阵和向量库。

Mahout的应用

  • Adobe,Facebook,LinkedIn,Foursquare,Twitter和Yahoo等公司在内部使用Mahout。

  • Foursquare可帮助您查找特定区域中可用的地方,食物和娱乐场所。它使用Mahout的推荐引擎。

  • Twitter使用Mahout进行用户兴趣建模。

  • 雅虎!使用Mahout进行模式挖掘。