基于两列删除 Pandas Dataframe 中的重复项(1) - 芒果文档

📌 相关文章

📜 基于两列删除 Pandas Dataframe 中的重复项(1)

📅 最后修改于: 2023-12-03 15:37:48.444000 🧑 作者: Mango

基于两列删除 Pandas Dataframe 中的重复项

在数据处理中，经常会遇到需要基于两列删除重复项的情况。Pandas 提供了 drop_duplicates 方法可以用来删除 DataFrame 中的重复行。

1. drop_duplicates 方法介绍

drop_duplicates 方法的语法如下：

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

其中，参数 subset 指定列名，用于判断重复行，默认为所有列；参数 keep 用于指定保留哪个重复行，默认为第一个；参数 inplace 用于指定是否修改原数据表；参数 ignore_index 用于指定是否重新生成索引。

2. 根据两列删除重复项示例

下面是一个根据两列删除重复项的示例，数据表如下：

import pandas as pd

df = pd.DataFrame({'A':[1,1,2,2],'B':[3,4,5,5],'C':[5,5,6,7]})
print(df)

输出结果如下：

我们要基于列 A 和列 B 删除重复项，可以使用下面的代码：

df = df.drop_duplicates(subset=['A', 'B'], keep='first')
print(df)

输出结果如下：

可以看到，删除了索引为3的那一行数据。

3. 总结

本文介绍了如何使用 Pandas 中的 drop_duplicates 方法基于两列删除重复项。同时，提供了示例代码和输出结果，便于程序员理解和操作。