📜  Pandas DataFrame.drop_duplicates()(1)

📅  最后修改于: 2023-12-03 15:18:13.631000             🧑  作者: Mango

Pandas DataFrame.drop_duplicates()

DataFrame.drop_duplicates()方法用于删除DataFrame中的重复行。

语法
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
参数
  • subset: 指定一个或多个列进行比较,如果不指定,则比较整行。
  • keep: 指定哪些重复行(或非重复行)应该保留,可选值包括:
    • 'first':保留第一个出现的行,删除后续出现的相同行;
    • 'last':保留最后一个出现的行,删除之前出现的相同行;
    • False:全部删除。
  • inplace: 是否在原DataFrame上进行修改。默认为False,返回修改后的结果。
  • ignore_index: 是否重置结果DataFrame的索引。默认为False,保留原索引。
返回值

返回删除重复行后的DataFrame。

示例
import pandas as pd

data = {'name': ['Alice', 'Bob', 'Alice', 'David'], 
        'age': [18, 24, 18, 20]}
df = pd.DataFrame(data)

print("删除重复行前:")
print(df)

df.drop_duplicates(inplace=True)

print("删除重复行后:")
print(df)

输出结果:

删除重复行前:
    name  age
0  Alice   18
1    Bob   24
2  Alice   18
3  David   20
删除重复行后:
    name  age
0  Alice   18
1    Bob   24
3  David   20

在上述示例中,原始DataFrame中共有4行数据,其中第1行和第3行完全相同,因此使用drop_duplicates()方法从DataFrame中删除其中一个重复行,最终返回3行不重复的数据。