📅  最后修改于: 2023-12-03 14:53:20.643000             🧑  作者: Mango
在 PySpark 中,我们可以使用 withColumnRenamed()
方法来重命名一个数据框中的列名。下面是一个示例:
from pyspark.sql.functions import col
# 创建一个示例数据框
df = spark.createDataFrame([(1, "John"), (2, "Mike"), (3, "Sarah")], ["id", "name"])
# 重命名列名
df = df.withColumnRenamed("id", "employee_id")
df = df.withColumnRenamed("name", "employee_name")
# 展示数据框
df.show()
输出结果:
+-----------+-------------+
|employee_id|employee_name|
+-----------+-------------+
| 1| John|
| 2| Mike|
| 3| Sarah|
+-----------+-------------+
在上面的示例中,我们使用 withColumnRenamed()
方法来分别将 "id" 列和 "name" 列重命名为 "employee_id" 和 "employee_name"。
需要注意的是,withColumnRenamed()
方法不会改变原始的数据框,而是返回一个新的数据框。因此,我们需要将结果重新赋值给原始的数据框。
可以通过 col()
函数传递原始的列名来重命名数据框中的列名。例如:
df = df.withColumnRenamed(col("id"), "employee_id")
df = df.withColumnRenamed(col("name"), "employee_name")
这种方法可以使代码更加易读,同时也可以避免出现拼写错误。
以上就是如何在 PySpark 中重命名数据框中的列名的介绍。