如何重命名 pyspark 数据框中的列 - Python (1)

📌 相关文章

📜 如何重命名 pyspark 数据框中的列 - Python (1)

📅 最后修改于: 2023-12-03 14:53:20.643000 🧑 作者: Mango

如何重命名 PySpark 数据框中的列 - Python

在 PySpark 中，我们可以使用 withColumnRenamed() 方法来重命名一个数据框中的列名。下面是一个示例：

from pyspark.sql.functions import col

# 创建一个示例数据框
df = spark.createDataFrame([(1, "John"), (2, "Mike"), (3, "Sarah")], ["id", "name"])

# 重命名列名
df = df.withColumnRenamed("id", "employee_id")
df = df.withColumnRenamed("name", "employee_name")

# 展示数据框
df.show()

输出结果：

+-----------+-------------+
|employee_id|employee_name|
+-----------+-------------+
|          1|         John|
|          2|         Mike|
|          3|        Sarah|
+-----------+-------------+

在上面的示例中，我们使用 withColumnRenamed() 方法来分别将 "id" 列和 "name" 列重命名为 "employee_id" 和 "employee_name"。

需要注意的是，withColumnRenamed() 方法不会改变原始的数据框，而是返回一个新的数据框。因此，我们需要将结果重新赋值给原始的数据框。

可以通过 col() 函数传递原始的列名来重命名数据框中的列名。例如：

df = df.withColumnRenamed(col("id"), "employee_id")
df = df.withColumnRenamed(col("name"), "employee_name")

这种方法可以使代码更加易读，同时也可以避免出现拼写错误。

以上就是如何在 PySpark 中重命名数据框中的列名的介绍。