📅  最后修改于: 2023-12-03 15:37:48.444000             🧑  作者: Mango
在数据处理中,经常会遇到需要基于两列删除重复项的情况。Pandas 提供了 drop_duplicates
方法可以用来删除 DataFrame 中的重复行。
drop_duplicates
方法的语法如下:
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
其中,参数 subset
指定列名,用于判断重复行,默认为所有列;参数 keep
用于指定保留哪个重复行,默认为第一个;参数 inplace
用于指定是否修改原数据表;参数 ignore_index
用于指定是否重新生成索引。
下面是一个根据两列删除重复项的示例,数据表如下:
import pandas as pd
df = pd.DataFrame({'A':[1,1,2,2],'B':[3,4,5,5],'C':[5,5,6,7]})
print(df)
输出结果如下:
A B C
0 1 3 5
1 1 4 5
2 2 5 6
3 2 5 7
我们要基于列 A 和列 B 删除重复项,可以使用下面的代码:
df = df.drop_duplicates(subset=['A', 'B'], keep='first')
print(df)
输出结果如下:
A B C
0 1 3 5
1 1 4 5
2 2 5 6
可以看到,删除了索引为3的那一行数据。
本文介绍了如何使用 Pandas 中的 drop_duplicates
方法基于两列删除重复项。同时,提供了示例代码和输出结果,便于程序员理解和操作。