如何在 Spark 数据框中添加行 - Python (1)

📌 相关文章

📜 如何在 Spark 数据框中添加行 - Python (1)

📅 最后修改于: 2023-12-03 15:08:48.191000 🧑 作者: Mango

如何在 Spark 数据框中添加行 - Python

在 Spark 数据框中添加行可以使用 union 或者 concat 方法，其中 union 方法用于合并两个相同结构的数据框，concat 方法用于按行合并两个不同结构的数据框。

以下是一个示例程序：

from pyspark.sql.functions import lit

# 创建一个空数据框
df_empty = spark.createDataFrame([], schema=['id', 'name', 'age'])

# 创建一个包含一行数据的数据框
df_new = spark.createDataFrame([(1, 'Alice', 25)], schema=['id', 'name', 'age'])

# 使用 'union' 方法合并两个数据框
df_merged = df_empty.union(df_new)

# 使用 'concat' 方法将两个数据框按行合并
df_concatenated = df_empty.union(df_new.selectExpr(df_empty.columns))

# 在原始数据框中添加一行数据
df_added = df_empty.withColumn('id', lit(1)).withColumn('name', lit('Alice')).withColumn('age', lit(25))

# 显示结果
df_added.show()

以上程序创建了一个空数据框 df_empty，然后创建了一个包含一行数据的数据框 df_new。然后使用 union 方法将这两个数据框合并成一个新的数据框 df_merged，并使用 concat 方法将这两个数据框按行合并成一个新的数据框 df_concatenated。最后，使用 withColumn 方法在原始数据框 df_empty 中添加一行数据，并将结果存储在 df_added 中。