📝 MapReduce教程

11篇技术文档
  MapReduce教程

📅  最后修改于: 2020-11-30 05:27:28        🧑  作者: Mango

MapReduce是一种编程范例,在Hadoop的后台运行,以提供可伸缩性和简单的数据处理解决方案。本教程介绍了MapReduce的功能及其如何分析大数据。本教程是为渴望使用Hadoop框架学习大数据分析基础并成为Hadoop开发人员的专业人员准备的。软件专业人员,分析专业人员和ETL开发人员是本课程的主要受益者。先决条件希望本教程的读者对Core Java的基本知识有很好的了解,并且他们事先接触...

  MapReduce-简介

📅  最后修改于: 2020-11-30 05:27:56        🧑  作者: Mango

MapReduce是一种编程模型,用于编写可以在多个节点上并行处理大数据的应用程序。 MapReduce提供了用于分析大量复杂数据的分析功能。什么是大数据?大数据是无法使用传统计算技术处理的大型数据集的集合。例如,Facebook或Youtube每天需要其收集和管理的数据量可能属于大数据类别。但是,大数据不仅涉及规模和数量,还涉及以下一个或多个方面:速度,多样性,数量和复杂性。为什么选择MapRe...

  MapReduce-算法

📅  最后修改于: 2020-11-30 05:28:33        🧑  作者: Mango

MapReduce算法包含两个重要任务,即Map和Reduce。映射任务是通过Mapper类完成的reduce任务是通过Reducer类完成的。Mapper类接收输入,对其进行标记,映射和排序。 Mapper类的输出用作Reducer类的输入,该类依次搜索匹配对并精简它们。MapReduce实现了各种数学算法,可以将任务分成小部分,然后将它们分配给多个系统。用技术术语来说,MapReduce算法有...

  MapReduce-安装

📅  最后修改于: 2020-11-30 05:29:16        🧑  作者: Mango

MapReduce仅适用于Linux风格的操作系统,并且内置有Hadoop框架。为了安装Hadoop框架,我们需要执行以下步骤。验证JAVA安装在安装Hadoop之前,必须在系统上安装Java。使用以下命令检查系统上是否安装了Java。如果您的系统上已经安装了Java,则会看到以下响应-如果您的系统上没有安装Java,请按照以下步骤操作。安装Java第1步从以下链接(此链接)下载Java的最新版本...

  MapReduce-API

📅  最后修改于: 2020-11-30 05:29:44        🧑  作者: Mango

在本章中,我们将仔细研究MapReduce编程操作中涉及的类及其方法。我们将主要专注于以下方面-JobContext接口工作类别映射器类减速机类JobContext接口JobContext接口是所有类的超级接口,它们在MapReduce中定义了不同的作业。它为您提供了任务运行时提供给该任务的只读视图。以下是JobContext接口的子接口。S.No.Subinterface Description...

  MapReduce-Hadoop实施

📅  最后修改于: 2020-11-30 05:30:40        🧑  作者: Mango

MapReduce是一个框架,用于编写应用程序以可靠的方式处理大型商用硬件集群上的大量数据。本章将指导您使用Java在Hadoop框架中操作MapReduce。MapReduce算法通常,MapReduce范例基于将map-reduce程序发送到实际数据所在的计算机。在MapReduce作业期间,Hadoop将Map和Reduce任务发送到集群中的相应服务器。该框架管理数据传递的所有细节,例如发布...

  MapReduce-分区程序

📅  最后修改于: 2020-11-30 05:32:01        🧑  作者: Mango

分区器的工作原理类似于处理输入数据集的条件。分区阶段发生在Map阶段之后以及Reduce阶段之前。分隔器的数量等于减速器的数量。这意味着分区器将根据缩减器的数量对数据进行拆分。因此,从单个分区程序传递的数据由单个Reducer处理。分区器分区程序对中间Map输出的键值对进行分区。它使用用户定义的条件对数据进行分区,该条件类似于哈希函数。分区总数与作业的Reducer任务数相同。让我们举一个例子来了...

  MapReduce-合并器

📅  最后修改于: 2020-11-30 05:32:53        🧑  作者: Mango

合并器,也称为半缩减器,是一个可选类,其操作是通过接受Map类的输入,然后将输出键值对传递给Reducer类。组合器的主要函数是使用相同的键来汇总地图输出记录。组合器的输出(键值集合)将通过网络发送到实际的Reducer任务作为输入。合路器在Map类和Reduce类之间使用Combiner类可减少Map和Reduce之间的数据传输量。通常,映射任务的输出很大,并且传输到reduce任务的数据很大。...

  MapReduce-Hadoop管理

📅  最后修改于: 2020-11-30 05:33:16        🧑  作者: Mango

本章介绍Hadoop管理,其中包括HDFS和MapReduce管理。HDFS管理包括监视HDFS文件结构,位置和更新的文件。MapReduce管理包括监视应用程序列表,节点配置,应用程序状态等。HDFS监控HDFS(Hadoop分布式文件系统)包含用户目录,输入文件和输出文件。使用MapReduce命令(放置和获取)进行存储和检索。通过在“ / $ HADOOP_HOME / sbin”上传递命令...

  MapReduce-有用的资源

📅  最后修改于: 2020-11-30 05:33:33        🧑  作者: Mango

以下资源包含有关MapReduce的其他信息。请使用它们来获得有关此方面的更深入的知识。MapReduce上的有用链接MapReduce Wiki–MapReduce的维基百科参考。MapReduce基础-MapReduce基础MapReduce-关于MapReduceMapReduce上的有用书籍要在此页面上注册您的网站,请发送电子邮件至...

  讨论MapReduce

📅  最后修改于: 2020-11-30 05:33:45        🧑  作者: Mango

MapReduce是一种编程范例,在Hadoop的后台运行,以提供可伸缩性和简单的数据处理解决方案。本教程介绍了MapReduce的功能及其如何分析大数据。...