📜  将Python字典列表转换为 PySpark DataFrame(1)

📅  最后修改于: 2023-12-03 15:09:33.571000             🧑  作者: Mango

将Python字典列表转换为 PySpark DataFrame

如果你需要在 PySpark 中处理数据,那么可能需要将 Python 字典列表转换为 PySpark DataFrame。在这篇文章中,我们将会介绍如何使用 PySpark 将 Python 字典列表转换为 PySpark DataFrame。

1. 创建一个示例数据集

我们首先创建一个示例数据集,包含两列数据:nameage

data_dict = [
    {'name': 'Alice', 'age': 25},
    {'name': 'Bob', 'age': 30},
    {'name': 'Charlie', 'age': 35},
    {'name': 'David', 'age': 40}
]
2. 导入 PySpark 和创建 SparkSession

在使用 PySpark 前,需要先导入 PySpark 并创建 SparkSession。

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('dictionary-to-dataframe').getOrCreate()
3. 创建 PySpark DataFrame

创建 PySpark DataFrame 最简单的方法是使用 createDataFrame() 函数。

df = spark.createDataFrame(data_dict)

这将会创建一个 PySpark DataFrame,其中包含 nameage 两列。

4. 查看 PySpark DataFrame

我们可以使用 show() 函数查看 DataFrame。

df.show()

# Output:
# +-------+---+
# |   name|age|
# +-------+---+
# |  Alice| 25|
# |    Bob| 30|
# |Charlie| 35|
# |  David| 40|
# +-------+---+
总结

在本文中,我们介绍了如何使用 PySpark 将 Python 字典列表转换为 PySpark DataFrame。首先,我们创建了一个示例数据集,然后导入 PySpark 并创建 SparkSession,最后使用 createDataFrame() 函数创建了 PySpark DataFrame。