📅  最后修改于: 2023-12-03 14:52:08.931000             🧑  作者: Mango
在 PySpark 中,我们通常需要删除数据框中的一些列,以便对数据进行分析和处理。本文将介绍如何在 PySpark 中删除数据框中的列。
要删除单个列,需要使用 drop()
方法。该方法接受列名作为参数,并返回一个新的数据框,不包含指定的列。例如,假设我们有一个数据框 df
,其中包含列 col1
、col2
和 col3
,我们想删除 col2
列,可以使用以下代码:
new_df = df.drop('col2')
要删除多个列,可以在 drop()
方法中传入多个列名,例如:
new_df = df.drop('col2', 'col3')
默认情况下,drop()
方法不会修改原始数据框,而是返回一个新的数据框。如果要在原始数据框上修改,需要使用 drop()
方法的 inplace
参数,将其设置为 True
,例如:
df.drop('col2', inplace=True)
这会直接在原始数据框中删除 col2
列。
本文介绍了在 PySpark 中删除数据框中的列的方法。通过 drop()
方法,我们可以删除单个列或多个列,并且可以选择是返回新的数据框还是在原始数据框上修改。