📅  最后修改于: 2023-12-03 14:52:29.671000             🧑  作者: Mango
PySpark DataFrame 可以使用 lit() 方法创建常量列。lit() 方法接受一个参数,参数即为该列的常量值。
以下是一个简单的示例,展示如何将一个常量列添加到 DataFrame 中:
from pyspark.sql.functions import lit
# 创建 DataFrame
df = spark.createDataFrame([(1, "John"), (2, "Jane"), (3, "Bob")], ["id", "name"])
# 添加常量列
df = df.withColumn("age", lit(30))
# 展示 DataFrame
df.show()
这将输出以下结果:
+---+----+---+
| id|name|age|
+---+----+---+
| 1|John| 30|
| 2|Jane| 30|
| 3| Bob| 30|
+---+----+---+
如上述代码所示,使用 withColumn() 方法添加常量列。该方法接受两个参数:列名和列表达式。在这里,列名为“age”,列表达式使用 lit() 方法创建一个常量为 30 的列。
在 DataFrame 中添加常量列是非常有用的操作,可以轻松地查看每行的相同信息。如果您需要添加一个具有相同值的列,请尝试 lit() 方法。