📌  相关文章
📜  基于两列删除 Pandas Dataframe 中的重复项(1)

📅  最后修改于: 2023-12-03 15:37:48.444000             🧑  作者: Mango

基于两列删除 Pandas Dataframe 中的重复项

在数据处理中,经常会遇到需要基于两列删除重复项的情况。Pandas 提供了 drop_duplicates 方法可以用来删除 DataFrame 中的重复行。

1. drop_duplicates 方法介绍

drop_duplicates 方法的语法如下:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

其中,参数 subset 指定列名,用于判断重复行,默认为所有列;参数 keep 用于指定保留哪个重复行,默认为第一个;参数 inplace 用于指定是否修改原数据表;参数 ignore_index 用于指定是否重新生成索引。

2. 根据两列删除重复项示例

下面是一个根据两列删除重复项的示例,数据表如下:

import pandas as pd

df = pd.DataFrame({'A':[1,1,2,2],'B':[3,4,5,5],'C':[5,5,6,7]})
print(df)

输出结果如下:

   A  B  C
0  1  3  5
1  1  4  5
2  2  5  6
3  2  5  7

我们要基于列 A 和列 B 删除重复项,可以使用下面的代码:

df = df.drop_duplicates(subset=['A', 'B'], keep='first')
print(df)

输出结果如下:

   A  B  C
0  1  3  5
1  1  4  5
2  2  5  6

可以看到,删除了索引为3的那一行数据。

3. 总结

本文介绍了如何使用 Pandas 中的 drop_duplicates 方法基于两列删除重复项。同时,提供了示例代码和输出结果,便于程序员理解和操作。