如何在 Linux 中安装 Hadoop？(1)

📌 相关文章

📜 如何在 Linux 中安装 Hadoop？(1)

📅 最后修改于: 2023-12-03 15:08:42.054000 🧑 作者: Mango

如何在 Linux 中安装 Hadoop？

Hadoop是一个开源的分布式计算平台，可以处理大量数据，被广泛用于大数据处理领域。在Linux中安装Hadoop可以让我们在本地环境上进行开发和测试。

本文将介绍如何在Linux平台上安装Hadoop，并且配置单节点模式下的基本功能。

步骤一：准备工作

在安装Hadoop之前，我们需要确保以下软件包已经在Linux系统中安装好：

Java (JDK 1.8或以上)

可以使用以下命令检查JDK是否已经安装：

java -version

如果没有安装，请参考官方文档进行安装：https://www.oracle.com/java/technologies/javase-downloads.html

步骤二：下载和安装Hadoop

首先从官网下载Hadoop压缩包，我们选择下载最新的稳定版。下载地址：https://hadoop.apache.org/releases.html

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz

下载完成后，解压缩到指定目录：

tar -zxvf hadoop-3.3.0.tar.gz -C /usr/local/

步骤三：配置环境变量

在/etc/profile中编辑并增加以下的配置信息：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

为了马上生效，请先执行以下的命令：

source /etc/profile

步骤四：配置Hadoop

修改hadoop-env.sh文件，配置JAVA_HOME：

export JAVA_HOME=/usr/local/jdk-11.0.2

修改hdfs-site.xml文件，配置存储路径：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

修改core-site.xml文件，配置Hadoop的默认文件系统：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

步骤五：启动Hadoop

执行以下的命令启动Hadoop，并查看是否启动成功：

start-all.sh

可以通过以下命令查看Hadoop相关的进程信息：

jps

如果启动过程没有错误输出，则Hadoop已经成功启动。

步骤六：测试Hadoop

我们可以使用Hadoop自带的测试数据来测试Hadoop是否正常工作。首先，我们需要将测试文件上传到Hadoop文件系统。

hadoop fs -mkdir /test
hadoop fs -put $HADOOP_HOME/etc/hadoop/*.xml /test

上传完成后，我们可以执行以下命令来在Hadoop文件系统中查看文件列表：

hadoop fs -ls /test

我们也可以使用Hadoop自带的wordcount例子来测试Hadoop是否工作正常。

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount /test /output

执行完成后，我们可以在Hadoop文件系统中查看输出文件：

hadoop fs -cat /output/part-r-00000

输出结果会显示/test目录下上传文件中每个单词出现的次数。

结论

在Linux中安装Hadoop可以让我们本地环境下开发和测试大数据处理任务。以上步骤为单节点模式的Hadoop安装配置，生产环境下需要考虑更多的安全和性能因素，具体请参考官方文档。