📅  最后修改于: 2023-12-03 15:09:33.571000             🧑  作者: Mango
如果你需要在 PySpark 中处理数据,那么可能需要将 Python 字典列表转换为 PySpark DataFrame。在这篇文章中,我们将会介绍如何使用 PySpark 将 Python 字典列表转换为 PySpark DataFrame。
我们首先创建一个示例数据集,包含两列数据:name
和 age
。
data_dict = [
{'name': 'Alice', 'age': 25},
{'name': 'Bob', 'age': 30},
{'name': 'Charlie', 'age': 35},
{'name': 'David', 'age': 40}
]
在使用 PySpark 前,需要先导入 PySpark 并创建 SparkSession。
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('dictionary-to-dataframe').getOrCreate()
创建 PySpark DataFrame 最简单的方法是使用 createDataFrame()
函数。
df = spark.createDataFrame(data_dict)
这将会创建一个 PySpark DataFrame,其中包含 name
和 age
两列。
我们可以使用 show()
函数查看 DataFrame。
df.show()
# Output:
# +-------+---+
# | name|age|
# +-------+---+
# | Alice| 25|
# | Bob| 30|
# |Charlie| 35|
# | David| 40|
# +-------+---+
在本文中,我们介绍了如何使用 PySpark 将 Python 字典列表转换为 PySpark DataFrame。首先,我们创建了一个示例数据集,然后导入 PySpark 并创建 SparkSession,最后使用 createDataFrame()
函数创建了 PySpark DataFrame。