📅  最后修改于: 2023-12-03 15:09:24.869000             🧑  作者: Mango
PySpark是Apache Spark的Python API,它使得可以使用Python编写Spark应用程序。本文将指导您如何使用Shell/Bash在Ubuntu、Mac或Windows上安装PySpark。
Spark是一个基于Java的框架,因此在安装PySpark之前,必须先安装Java。您可以通过以下命令检查系统是否已安装Java:
java --version
如果您的系统没有安装Java,则可以通过使用以下命令安装:
在Ubuntu上,使用以下命令安装:
sudo apt-get install default-jdk
在macOS上,您可以使用以下命令安装:
brew tap caskroom/cask
brew cask install java
注意: 如果您使用Homebrew安装Java,您还需要运行以下命令设置Java环境变量:
echo 'export JAVA_HOME=`/usr/libexec/java_home -v 1.8`' >> ~/.bash_profile
source ~/.bash_profile
您可以从官方网站下载Apache Spark的最新版本。但是,本文假设您已经在本地下载了Spark,并将其解压缩到/usr/local/spark
目录中。
wget https://apache.mirrors.tworzy.net/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz
tar -xvf spark-3.0.1-bin-hadoop2.7.tgz
sudo mv spark-3.0.1-bin-hadoop2.7 /usr/local/spark
PySpark是通过Python包安装的。可以使用pip安装PySpark:
sudo pip install pyspark
要测试Spark和PySpark是否已正确安装,请执行以下操作:
cd /usr/local/spark
./bin/pyspark
这会打开Python交互式终端,并且应该可以看到Spark Logo。输入以下代码:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("pyspark_example").getOrCreate()
df = spark.sql("SELECT 'spark' as hello ")
df.show()
如果您看到了类似的输出,恭喜您,您已经成功安装了PySpark。
+-----+
|hello|
+-----+
|spark|
+-----+
这就是在Shell/Bash中安装PySpark的方法。现在您已经准备好开始构建以PySpark为基础的Spark应用程序了。