📅  最后修改于: 2023-12-03 14:50:18.543000             🧑  作者: Mango
在PySpark中,您可以使用DataFrame的drop
方法来删除列。drop
方法接受一个或多个列名作为参数,并返回一个新的DataFrame,其中不包含指定的列。
以下是删除列的示例代码:
# 导入必要的模块
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.getOrCreate()
# 创建示例DataFrame
data = [("Alice", 25, "Engineer"), ("Bob", 30, "Data Scientist"), ("Charlie", 35, "Manager")]
columns = ["Name", "Age", "Job"]
df = spark.createDataFrame(data, columns)
# 显示原始DataFrame
df.show()
# 删除指定列
new_df = df.drop("Job")
# 显示新DataFrame
new_df.show()
输出结果:
+-------+---+----------------+
| Name|Age| Job|
+-------+---+----------------+
| Alice| 25| Engineer|
| Bob| 30|Data Scientist|
|Charlie| 35| Manager|
+-------+---+----------------+
+-------+---+
| Name|Age|
+-------+---+
| Alice| 25|
| Bob| 30|
|Charlie| 35|
+-------+---+
在上面的示例中,我们创建了一个包含Name
,Age
和Job
列的示例DataFrame。然后,我们使用drop
方法删除了Job
列,并将结果存储在新的DataFrame new_df
中。最后,我们分别显示了原始DataFrame和新的DataFrame。
请注意,drop
方法返回一个新的DataFrame,而不会修改原始DataFrame。如果您需要在原始DataFrame上进行修改,请使用df = df.drop("Job")
。
希望这个介绍对您有帮助!