📜  在 PySpark 中从字典构建一行(1)

📅  最后修改于: 2023-12-03 15:07:46.141000             🧑  作者: Mango

在 PySpark 中从字典构建一行

在 PySpark 中,可以使用 StructType 和 StructField 来定义数据结构。同时,我们也可以使用字典来构建一行数据。以下是一个示例程序:

from pyspark.sql.types import StructType, StructField, StringType, IntegerType
from pyspark.sql import Row

# 定义数据结构
my_schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)
])

# 构建一行数据
my_dict = {"name": "Alice", "age": 25}
my_row = Row(**my_dict)

# 使用数据结构和一行数据创建 DataFrame
my_df = spark.createDataFrame([my_row], my_schema)

# 输出 DataFrame
my_df.show()

输出结果为:

+-----+---+
| name|age|
+-----+---+
|Alice| 25|
+-----+---+

上述程序中,首先我们定义了一个数据结构 my_schema,其中包含两个字段 name 和 age。使用字典 my_dict,我们构建了一行数据 my_row。在创建 DataFrame 时,我们将 my_row 加入到列表中,使用 my_schema 指定数据结构,并令 PySpark 推断出数据类型。最后,我们输出 DataFrame,可以看到已成功构建一行数据。

以上就是在 PySpark 中从字典构建一行的介绍,希望对大家有所帮助。