📅  最后修改于: 2023-12-03 15:07:46.170000             🧑  作者: Mango
在 PySpark 中,我们可以使用 withColumn()
方法在现有数据框 (DataFrame) 中添加新列。
为了添加一个具有默认值的新列,我们可以使用 lit()
函数来为所有行创建具有相同值的新列。下面是一个示例代码,用于创建一个新列 "new_col",该列的所有行都设置为默认值 "default_value":
from pyspark.sql.functions import lit
# 创建数据框
df = spark.createDataFrame([(1, 'A'), (2, 'B'), (3, 'C')], ['id', 'col1'])
# 添加新列 "new_col",并为所有行设置默认值 "default_value"
default_value = 'default_value'
df_with_new_col = df.withColumn("new_col", lit(default_value))
# 显示数据框
df_with_new_col.show()
在上面的示例中,我们使用 pyspark.sql.functions
中的 lit()
函数来为所有行创建一个具有相同值的新列 "new_col"。withColumn()
方法将添加具有默认值的新列,并返回一个新的数据框 (df_with_new_col
)。
运行上述代码将产生以下输出:
+---+----+-------------+
| id|col1| new_col|
+---+----+-------------+
| 1| A|default_value|
| 2| B|default_value|
| 3| C|default_value|
+---+----+-------------+
现在,新列 "new_col" 已经成功添加到数据框中,并且所有行都设置为默认值 "default_value"。
在 PySpark 中,我们可以使用 withColumn()
方法为现有数据框 (DataFrame) 添加新列。使用 lit()
函数,我们可以为所有行创建具有相同值的新列,并将其用作默认值。这种方法非常有用,当我们需要添加随后需要进行更改的新列时,就可以简单地使用默认值了。