📜  安装 pyspark - Shell-Bash (1)

📅  最后修改于: 2023-12-03 15:09:24.869000             🧑  作者: Mango

安装 PySpark - Shell/Bash

PySpark是Apache Spark的Python API,它使得可以使用Python编写Spark应用程序。本文将指导您如何使用Shell/Bash在Ubuntu、Mac或Windows上安装PySpark。

1. 安装Java

Spark是一个基于Java的框架,因此在安装PySpark之前,必须先安装Java。您可以通过以下命令检查系统是否已安装Java:

java --version

如果您的系统没有安装Java,则可以通过使用以下命令安装:

在Ubuntu上,使用以下命令安装:

sudo apt-get install default-jdk

在macOS上,您可以使用以下命令安装:

brew tap caskroom/cask
brew cask install java

注意: 如果您使用Homebrew安装Java,您还需要运行以下命令设置Java环境变量:

echo 'export JAVA_HOME=`/usr/libexec/java_home -v 1.8`' >> ~/.bash_profile
source ~/.bash_profile
2. 下载和解压Spark

您可以从官方网站下载Apache Spark的最新版本。但是,本文假设您已经在本地下载了Spark,并将其解压缩到/usr/local/spark目录中。

wget https://apache.mirrors.tworzy.net/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz
tar -xvf spark-3.0.1-bin-hadoop2.7.tgz
sudo mv spark-3.0.1-bin-hadoop2.7 /usr/local/spark
3. 安装PySpark

PySpark是通过Python包安装的。可以使用pip安装PySpark:

sudo pip install pyspark
4. 测试安装

要测试Spark和PySpark是否已正确安装,请执行以下操作:

cd /usr/local/spark
./bin/pyspark

这会打开Python交互式终端,并且应该可以看到Spark Logo。输入以下代码:

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("pyspark_example").getOrCreate()
df = spark.sql("SELECT 'spark' as hello ")
df.show()

如果您看到了类似的输出,恭喜您,您已经成功安装了PySpark。

+-----+
|hello|
+-----+
|spark|
+-----+

这就是在Shell/Bash中安装PySpark的方法。现在您已经准备好开始构建以PySpark为基础的Spark应用程序了。