📜  查找关于多列 pandas 的重复行 - Python (1)

📅  最后修改于: 2023-12-03 14:55:32.788000             🧑  作者: Mango

查找关于多列 pandas 的重复行 - Python

在数据处理中,我们可能需要查找多列数据中的重复行。Pandas是一个非常强大的数据处理库,提供了很多方便的工具来进行数据操作,包括查找重复行。

方法一

我们可以使用Pandas的duplicated()函数和subset参数来比较多列的数据是否重复。例如,如果我们有一个包含三列数据的数据集,我们可以使用以下代码来查找重复行:

import pandas as pd

df = pd.read_csv('data.csv')

# 查找重复行
duplicateRowsDF = df[df.duplicated(['column1', 'column2', 'column3'])]

print("Duplicate Rows except first occurrence based on all columns :")
print(duplicateRowsDF)

代码说明:

  • 首先使用Pandas的read_csv()函数读取csv文件,得到数据集df
  • 然后使用df.duplicated()函数查找重复行,其中通过subset参数指定三列数据进行比较
  • 最后通过打印输出查找到的重复行
方法二

除了使用duplicated()函数外,我们还可以使用drop_duplicates()函数来去除重复行,并保留第一次出现的行。代码如下:

import pandas as pd

df = pd.read_csv('data.csv')

# 去除重复行
df.drop_duplicates(subset=['column1', 'column2', 'column3'], keep='first', inplace=True)

print("Dataframe after deleting duplicates:")
print(df)

代码说明:

  • 通过Pandas的read_csv()函数读取csv文件,得到数据集df
  • 使用drop_duplicates()函数去除重复行,其中通过subset参数指定三列数据进行比较,keep参数指定保留第一次出现的行
  • 最后更新原数据集
结论

以上是在使用Pandas中查找多列重复行的两种方法。通过使用这些方法,我们可以快速准确地查找并去除多列数据中的重复行。

希望本篇文章对你有所帮助,谢谢阅读!