📜  在 python 中创建 spark 数据框(1)

📅  最后修改于: 2023-12-03 15:07:46.381000             🧑  作者: Mango

在 Python 中创建 Spark 数据框

Apache Spark 是一个流行的大数据处理框架,它支持 Python API。Spark DataFrame 是一个分布式数据集合,可以在 Python 中创建和操作。本文将介绍如何在 Python 中创建 Spark 数据框。

1. 安装 PySpark

首先,我们需要安装 PySpark。PySpark 是 Apache Spark 与 Python 的交互组件。可以通过以下命令在终端中安装 PySpark:

pip install pyspark
2. 导入 PySpark

下一步,我们需要导入 PySpark 库:

from pyspark.sql import SparkSession
3. 创建 SparkSession

在 PySpark 中,我们使用 SparkSession 对象来与 Spark 集群交互。我们需要创建一个 SparkSession 对象:

spark = SparkSession.builder.appName('my_app').getOrCreate()

这将创建一个名为 my_app 的 Spark 应用程序,并返回或创建一个现有的 SparkSession 对象。

4. 创建 DataFrame

接下来,我们使用 SparkSession 对象来创建 DataFrame。这里我们演示使用数据集创建 DataFrame:

from pyspark.sql.types import StructType, StructField, IntegerType, StringType

schema = StructType([
    StructField('id', IntegerType(), True),
    StructField('name', StringType(), True),
    StructField('age', IntegerType(), True)
])

data = [
    (1, 'Alice', 20),
    (2, 'Bob', 25),
    (3, 'Charlie', 30),
]

df = spark.createDataFrame(data, schema)

此代码将使用 schema 指定的结构定义 DataFrame 的结构,并使用 data 指定的数据创建 DataFrame。

5. 显示 DataFrame

最后,我们可以使用 DataFrame 的 .show() 方法来查看 DataFrame 的内容:

df.show()

输出为:

+---+-------+---+
| id|   name|age|
+---+-------+---+
|  1|  Alice| 20|
|  2|    Bob| 25|
|  3|Charlie| 30|
+---+-------+---+

这样,我们就成功地在 Python 中创建了一个 Spark 数据框。