Apache Spark安装(1) - 芒果文档

📌 相关文章

📜 Apache Spark安装(1)

📅 最后修改于: 2023-12-03 14:59:20.988000 🧑 作者: Mango

Apache Spark 安装

Apache Spark是一个基于Hadoop MapReduce的大数据分析工具，它能在内存中迅速处理大量数据，具有高效、易用等特点。在安装Apache Spark之前，需要先安装Java和Hadoop环境。

安装Java

首先需要安装Java。Apache Spark支持Java 8或更高版本。

在Ubuntu上安装

sudo apt update
sudo apt install default-jre
sudo apt install default-jdk

在CentOS上安装

sudo yum install java-1.8.0-openjdk

安装Hadoop

Apache Spark需要依赖Hadoop环境，因此需要先安装Hadoop。

在Ubuntu上安装

sudo apt-get install hadoop

在CentOS上安装

sudo yum install hadoop

安装Apache Spark

下载Spark

从 https://spark.apache.org/downloads.html 下载Apache Spark的二进制文件，选择合适的版本并下载。

解压Spark

将下载的Spark压缩包解压到合适的目录下。

tar zxvf spark-3.1.2-bin-hadoop3.2.tgz

配置环境变量

在.bashrc或.zshrc文件中添加如下配置信息：

export PATH=$PATH:/path/to/spark/bin
export SPARK_HOME=/path/to/spark

使配置生效，执行：

source .bashrc

或

source .zshrc

启动Apache Spark

Apache Spark支持本地模式和集群模式，可以通过启动脚本来启动Spark应用程序。

在本地模式下运行Spark应用程序

在终端中执行：

spark-submit --class main.java.className --master local /path/to/your/jar

在集群模式下运行Spark应用程序

在终端中执行：

spark-submit --class main.java.className --master spark://your-master-ip:7077 /path/to/your/jar

验证Spark安装

执行如下命令：

spark-shell

进入Spark shell后，执行一个简单的Scala操作：

scala> val data = 1 to 1000
scala> val distData = sc.parallelize(data)
scala> distData.count()

如果输出结果为1000，说明环境搭建成功。