📜  如何在 Linux 中安装 Hadoop?(1)

📅  最后修改于: 2023-12-03 15:08:42.054000             🧑  作者: Mango

如何在 Linux 中安装 Hadoop?

Hadoop是一个开源的分布式计算平台,可以处理大量数据,被广泛用于大数据处理领域。在Linux中安装Hadoop可以让我们在本地环境上进行开发和测试。

本文将介绍如何在Linux平台上安装Hadoop,并且配置单节点模式下的基本功能。

步骤一:准备工作

在安装Hadoop之前,我们需要确保以下软件包已经在Linux系统中安装好:

  • Java (JDK 1.8或以上)

可以使用以下命令检查JDK是否已经安装:

java -version

如果没有安装,请参考官方文档进行安装:https://www.oracle.com/java/technologies/javase-downloads.html

步骤二:下载和安装Hadoop

首先从官网下载Hadoop压缩包,我们选择下载最新的稳定版。下载地址:https://hadoop.apache.org/releases.html

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz

下载完成后,解压缩到指定目录:

tar -zxvf hadoop-3.3.0.tar.gz -C /usr/local/
步骤三:配置环境变量

/etc/profile中编辑并增加以下的配置信息:

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

为了马上生效,请先执行以下的命令:

source /etc/profile
步骤四:配置Hadoop
  1. 修改hadoop-env.sh文件,配置JAVA_HOME:
export JAVA_HOME=/usr/local/jdk-11.0.2
  1. 修改hdfs-site.xml文件,配置存储路径:
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>
  1. 修改core-site.xml文件,配置Hadoop的默认文件系统:
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>
步骤五:启动Hadoop

执行以下的命令启动Hadoop,并查看是否启动成功:

start-all.sh

可以通过以下命令查看Hadoop相关的进程信息:

jps

如果启动过程没有错误输出,则Hadoop已经成功启动。

步骤六:测试Hadoop

我们可以使用Hadoop自带的测试数据来测试Hadoop是否正常工作。首先,我们需要将测试文件上传到Hadoop文件系统。

hadoop fs -mkdir /test
hadoop fs -put $HADOOP_HOME/etc/hadoop/*.xml /test

上传完成后,我们可以执行以下命令来在Hadoop文件系统中查看文件列表:

hadoop fs -ls /test

我们也可以使用Hadoop自带的wordcount例子来测试Hadoop是否工作正常。

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount /test /output

执行完成后,我们可以在Hadoop文件系统中查看输出文件:

hadoop fs -cat /output/part-r-00000

输出结果会显示/test目录下上传文件中每个单词出现的次数。

结论

在Linux中安装Hadoop可以让我们本地环境下开发和测试大数据处理任务。以上步骤为单节点模式的Hadoop安装配置,生产环境下需要考虑更多的安全和性能因素,具体请参考官方文档。

参考