📌  相关文章
📜  如何删除 PySpark 数据框中的列?(1)

📅  最后修改于: 2023-12-03 14:52:08.931000             🧑  作者: Mango

如何删除 PySpark 数据框中的列?

在 PySpark 中,我们通常需要删除数据框中的一些列,以便对数据进行分析和处理。本文将介绍如何在 PySpark 中删除数据框中的列。

删除单个列

要删除单个列,需要使用 drop() 方法。该方法接受列名作为参数,并返回一个新的数据框,不包含指定的列。例如,假设我们有一个数据框 df,其中包含列 col1col2col3,我们想删除 col2 列,可以使用以下代码:

new_df = df.drop('col2')
删除多个列

要删除多个列,可以在 drop() 方法中传入多个列名,例如:

new_df = df.drop('col2', 'col3')
原地删除

默认情况下,drop() 方法不会修改原始数据框,而是返回一个新的数据框。如果要在原始数据框上修改,需要使用 drop() 方法的 inplace 参数,将其设置为 True,例如:

df.drop('col2', inplace=True)

这会直接在原始数据框中删除 col2 列。

总结

本文介绍了在 PySpark 中删除数据框中的列的方法。通过 drop() 方法,我们可以删除单个列或多个列,并且可以选择是返回新的数据框还是在原始数据框上修改。