删除列 pyspark - Python (1)

📌 相关文章

📜 删除列 pyspark - Python (1)

📅 最后修改于: 2023-12-03 14:50:18.543000 🧑 作者: Mango

删除列 - PySpark Python

在PySpark中，您可以使用DataFrame的drop方法来删除列。drop方法接受一个或多个列名作为参数，并返回一个新的DataFrame，其中不包含指定的列。

以下是删除列的示例代码：

# 导入必要的模块
from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [("Alice", 25, "Engineer"), ("Bob", 30, "Data Scientist"), ("Charlie", 35, "Manager")]
columns = ["Name", "Age", "Job"]
df = spark.createDataFrame(data, columns)

# 显示原始DataFrame
df.show()

# 删除指定列
new_df = df.drop("Job")

# 显示新DataFrame
new_df.show()

输出结果:

+-------+---+----------------+
|   Name|Age|             Job|
+-------+---+----------------+
|  Alice| 25|        Engineer|
|    Bob| 30|Data Scientist|
|Charlie| 35|         Manager|
+-------+---+----------------+

+-------+---+
|   Name|Age|
+-------+---+
|  Alice| 25|
|    Bob| 30|
|Charlie| 35|
+-------+---+

在上面的示例中，我们创建了一个包含Name，Age和Job列的示例DataFrame。然后，我们使用drop方法删除了Job列，并将结果存储在新的DataFrame new_df中。最后，我们分别显示了原始DataFrame和新的DataFrame。

请注意，drop方法返回一个新的DataFrame，而不会修改原始DataFrame。如果您需要在原始DataFrame上进行修改，请使用df = df.drop("Job")。

希望这个介绍对您有帮助！