📅  最后修改于: 2023-12-03 15:01:06.207000             🧑  作者: Mango
Hadoop是一个开源的、分布式计算框架,用于大规模数据处理,它采用了分布式文件系统(HDFS)以及MapReduce模型。
下面是Hadoop的基本架构图:
Hadoop架构由以下几部分组成:
HDFS是Hadoop分布式文件系统,它可以存储大量数据,并将文件切分为小块进行存储。HDFS的文件块大小默认为64MB,但是可以配置为不同大小。文件会被存储在多个不同的机器上,以实现数据冗余备份,提高数据可靠性。
MapReduce是Hadoop中的一个计算模型,可以用于在大规模数据集上进行分布式计算。MapReduce的计算过程分为两个阶段:从数据中提取具有特殊含义的关键字(Map)和进行统计计算(Reduce)。
YARN(Yet Another Resource Negotiator,又称为MR2)是Hadoop中的资源管理器。YARN可以对集群中的资源进行管理,并为应用程序分配适当的计算和存储资源。同时,YARN可以处理各种类型的应用程序,避免了过去版本Hadoop只能处理MapReduce作业的限制。
Hadoop Common是Hadoop中的通用库,它包括一些常用的工具类和公共API,支持Hadoop上不同的应用程序和工具。
以上是Hadoop的架构及其各个组件的简单介绍。Hadoop是一个功能强大,可扩展性强的分布式框架,可用于大规模数据处理和存储。对于数据工程师、数据科学家等人员来说,Hadoop是不可或缺的工具。