📜  Apache Spark安装(1)

📅  最后修改于: 2023-12-03 14:59:20.988000             🧑  作者: Mango

Apache Spark 安装

Apache Spark是一个基于Hadoop MapReduce的大数据分析工具,它能在内存中迅速处理大量数据,具有高效、易用等特点。在安装Apache Spark之前,需要先安装Java和Hadoop环境。

安装Java

首先需要安装Java。Apache Spark支持Java 8或更高版本。

在Ubuntu上安装
sudo apt update
sudo apt install default-jre
sudo apt install default-jdk
在CentOS上安装
sudo yum install java-1.8.0-openjdk
安装Hadoop

Apache Spark需要依赖Hadoop环境,因此需要先安装Hadoop。

在Ubuntu上安装
sudo apt-get install hadoop
在CentOS上安装
sudo yum install hadoop
安装Apache Spark
下载Spark

从 https://spark.apache.org/downloads.html 下载Apache Spark的二进制文件,选择合适的版本并下载。

解压Spark

将下载的Spark压缩包解压到合适的目录下。

tar zxvf spark-3.1.2-bin-hadoop3.2.tgz
配置环境变量

在.bashrc或.zshrc文件中添加如下配置信息:

export PATH=$PATH:/path/to/spark/bin
export SPARK_HOME=/path/to/spark

使配置生效,执行:

source .bashrc

source .zshrc
启动Apache Spark

Apache Spark支持本地模式和集群模式,可以通过启动脚本来启动Spark应用程序。

在本地模式下运行Spark应用程序

在终端中执行:

spark-submit --class main.java.className --master local /path/to/your/jar
在集群模式下运行Spark应用程序

在终端中执行:

spark-submit --class main.java.className --master spark://your-master-ip:7077 /path/to/your/jar
验证Spark安装

执行如下命令:

spark-shell

进入Spark shell后,执行一个简单的Scala操作:

scala> val data = 1 to 1000
scala> val distData = sc.parallelize(data)
scala> distData.count()

如果输出结果为1000,说明环境搭建成功。