📅  最后修改于: 2023-12-03 14:59:20.988000             🧑  作者: Mango
Apache Spark是一个基于Hadoop MapReduce的大数据分析工具,它能在内存中迅速处理大量数据,具有高效、易用等特点。在安装Apache Spark之前,需要先安装Java和Hadoop环境。
首先需要安装Java。Apache Spark支持Java 8或更高版本。
sudo apt update
sudo apt install default-jre
sudo apt install default-jdk
sudo yum install java-1.8.0-openjdk
Apache Spark需要依赖Hadoop环境,因此需要先安装Hadoop。
sudo apt-get install hadoop
sudo yum install hadoop
从 https://spark.apache.org/downloads.html 下载Apache Spark的二进制文件,选择合适的版本并下载。
将下载的Spark压缩包解压到合适的目录下。
tar zxvf spark-3.1.2-bin-hadoop3.2.tgz
在.bashrc或.zshrc文件中添加如下配置信息:
export PATH=$PATH:/path/to/spark/bin
export SPARK_HOME=/path/to/spark
使配置生效,执行:
source .bashrc
或
source .zshrc
Apache Spark支持本地模式和集群模式,可以通过启动脚本来启动Spark应用程序。
在终端中执行:
spark-submit --class main.java.className --master local /path/to/your/jar
在终端中执行:
spark-submit --class main.java.className --master spark://your-master-ip:7077 /path/to/your/jar
执行如下命令:
spark-shell
进入Spark shell后,执行一个简单的Scala操作:
scala> val data = 1 to 1000
scala> val distData = sc.parallelize(data)
scala> distData.count()
如果输出结果为1000,说明环境搭建成功。