📅  最后修改于: 2023-12-03 14:41:41.249000             🧑  作者: Mango
Hadoop 是一个分布式计算框架,常用于大规模数据处理和存储。在开始使用 Hadoop 之前,需要进行环境设置。
在设置环境变量之前,需要确定 Hadoop 安装路径和 Java 安装路径。
打开终端或命令行,输入以下命令:
export JAVA_HOME=/path/to/java
export PATH=$PATH:/path/to/hadoop/bin
Hadoop 的配置文件位于 conf/
目录下。常见的配置文件包括 core-site.xml
、hdfs-site.xml
、mapred-site.xml
、yarn-site.xml
。
core-site.xml
定义了 Hadoop 的核心配置。打开该文件,添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml
定义了 HDFS 的配置。打开该文件,添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml
定义了 MapReduce 的配置。打开该文件,添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
定义了 YARN 的配置。打开该文件,添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
进入 Hadoop 安装路径,输入以下命令启动 Hadoop:
./sbin/start-all.sh
启动完成后,可以通过以下命令检查 Hadoop 是否正常工作:
jps
如果看到了如下进程,说明 Hadoop 启动成功:
NodeManager
ResourceManager
DataNode
NameNode
SecondaryNameNode
可以通过以下命令停止 Hadoop:
./sbin/stop-all.sh
本文介绍了 Hadoop 环境设置的必要步骤,包括硬件要求、软件要求、环境变量设置、配置 Hadoop、启动和停止 Hadoop。掌握了这些基本知识之后,可以开始在 Hadoop 上进行大规模数据处理和存储。