📜  删除列 pyspark - Python (1)

📅  最后修改于: 2023-12-03 14:50:18.543000             🧑  作者: Mango

删除列 - PySpark Python

在PySpark中,您可以使用DataFrame的drop方法来删除列。drop方法接受一个或多个列名作为参数,并返回一个新的DataFrame,其中不包含指定的列。

以下是删除列的示例代码:

# 导入必要的模块
from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [("Alice", 25, "Engineer"), ("Bob", 30, "Data Scientist"), ("Charlie", 35, "Manager")]
columns = ["Name", "Age", "Job"]
df = spark.createDataFrame(data, columns)

# 显示原始DataFrame
df.show()

# 删除指定列
new_df = df.drop("Job")

# 显示新DataFrame
new_df.show()

输出结果:

+-------+---+----------------+
|   Name|Age|             Job|
+-------+---+----------------+
|  Alice| 25|        Engineer|
|    Bob| 30|Data Scientist|
|Charlie| 35|         Manager|
+-------+---+----------------+

+-------+---+
|   Name|Age|
+-------+---+
|  Alice| 25|
|    Bob| 30|
|Charlie| 35|
+-------+---+

在上面的示例中,我们创建了一个包含NameAgeJob列的示例DataFrame。然后,我们使用drop方法删除了Job列,并将结果存储在新的DataFrame new_df中。最后,我们分别显示了原始DataFrame和新的DataFrame。

请注意,drop方法返回一个新的DataFrame,而不会修改原始DataFrame。如果您需要在原始DataFrame上进行修改,请使用df = df.drop("Job")

希望这个介绍对您有帮助!