📜  MapReduce教程

📅  最后修改于: 2020-12-03 01:42:15             🧑  作者: Mango

MapReduce教程

MapReduce教程提供了MapReduce的基本和高级概念。我们的MapReduce教程专为初学者和专业人士设计。

我们的MapReduce教程包括MapReduce的所有主题,例如MapReduce中的数据流,Map Reduce API,字数示例,字符数示例等。

什么是MapReduce?

MapReduce是一种数据处理工具,用于以分布式形式并行处理数据。它是在2004年根据Google出版的题为“ MapReduce:大型集群上的简化数据处理”的论文开发的。

MapReduce是具有两个阶段的范例,即映射器阶段和简化器阶段。在Mapper中,输入以键值对的形式给出。映射器的输出作为输入馈送到减速器。减速器仅在映射器结束后才运行。减速器也接受键值格式的输入,减速器的输出是最终输出。

Map Reduce的步骤

  • 映射以对的形式获取数据,并返回对的列表。在这种情况下,键将不是唯一的。
  • 使用Map的输出,Hadoop架构可以应用排序和混洗。这种排序和混洗对对的这些列表起作用,并发出唯一键和与此唯一键相关联的值的列表。
  • 分类和混洗的输出发送到减速器阶段。精简程序在唯一键值列表上执行已定义的函数,并且最终输出<键,值>将被存储/显示。


排序和随机播放

排序和混洗发生在Mapper的输出上以及化简器之前。当Mapper任务完成时,结果将按键排序,如果有多个化简器,则将其分区,然后写入磁盘。使用每个Mapper 的输入,我们收集每个唯一键k2的所有值。洗牌阶段以形式的输出作为输入发送到减速器阶段。

MapReduce的用法

  • 它可以用于各种应用程序,例如文档聚类,分布式排序和Web链接图反转。
  • 它可用于基于模式的分布式搜索。
  • 我们还可以在机器学习中使用MapReduce。
  • 谷歌使用它来重新生成谷歌对万维网的索引。
  • 它可以用于多种计算环境中,例如多集群,多核和移动环境。

先决条件

在学习MapReduce之前,您必须具有大数据的基本知识。

听众

我们的MapReduce教程旨在帮助初学者和专业人士。

问题

我们保证您不会在本MapReduce教程中找到任何问题。但是,如果有任何错误,请在联系表格中发布问题。