📜  创建 SparkSession - Python (1)

📅  最后修改于: 2023-12-03 15:36:52.680000             🧑  作者: Mango

创建 SparkSession - Python

SparkSession 是 Apache Spark 中管理数据的主要接口。它充当 Spark 代码和 Spark 群集之间的入口点,可以与多种类型的数据源交互并提供高度互动的分布式数据处理。在 Python 中,我们可以使用 PySpark 库来创建一个 SparkSession 实例。

安装 PySpark

在开始创建 SparkSession 之前,需要先安装 PySpark。可以使用以下命令在终端或命令提示符下执行:

pip install pyspark
导入 PySpark 库并创建 SparkSession 实例

在 PySpark 中,可以使用 SparkSession.builder() 方法来创建 SparkSession 实例。以下示例代码演示了如何导入 PySpark 库并创建 SparkSession:

from pyspark.sql import SparkSession

# 创建 SparkSession 实例
spark = SparkSession.builder.appName("TestApp").getOrCreate()

首先,我们从 pyspark.sql 中导入 SparkSession

然后,我们创建了一个名为 TestAppSparkSession 实例,并将其存储在 spark 变量中。getOrCreate() 方法将返回一个现有的 SparkSession 实例,如果没有则创建一个新的。

SparkSession 基本信息

我们可以使用以下代码来检查我们创建的 SparkSession 实例的基本信息:

# 输出 SparkSession 的应用名称
print("AppName: ", spark.sparkContext.appName)

# 输出 SparkSession 的 Master
print("Master: ", spark.sparkContext.master)

# 输出 SparkSession 的 Spark 群集配置信息
for conf in spark.sparkContext.getConf().getAll():
    print(f'{conf[0]}: {conf[1]}')

这些信息将帮助您了解正在使用的 SparkSession 实例和与之相关的群集。

关闭 SparkSession

在 Spark 应用程序的结尾,我们需要关闭 SparkSession 实例以释放群集资源。可以使用以下代码来关闭 SparkSession

# 关闭 SparkSession
spark.stop()

如果忘记关闭 SparkSession,则会在使用 Spark 时造成一些问题,并且可能导致群集资源浪费。

以上是创建 SparkSession 的 Python 代码示例。通过 PySpark 库和 SparkSession.builder() 方法,您可以轻松地创建和管理 Spark 应用程序。