📅  最后修改于: 2023-12-03 15:18:13.631000             🧑  作者: Mango
DataFrame.drop_duplicates()
方法用于删除DataFrame中的重复行。
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
subset
: 指定一个或多个列进行比较,如果不指定,则比较整行。keep
: 指定哪些重复行(或非重复行)应该保留,可选值包括:'first'
:保留第一个出现的行,删除后续出现的相同行;'last'
:保留最后一个出现的行,删除之前出现的相同行;False
:全部删除。inplace
: 是否在原DataFrame上进行修改。默认为False
,返回修改后的结果。ignore_index
: 是否重置结果DataFrame的索引。默认为False
,保留原索引。返回删除重复行后的DataFrame。
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Alice', 'David'],
'age': [18, 24, 18, 20]}
df = pd.DataFrame(data)
print("删除重复行前:")
print(df)
df.drop_duplicates(inplace=True)
print("删除重复行后:")
print(df)
输出结果:
删除重复行前:
name age
0 Alice 18
1 Bob 24
2 Alice 18
3 David 20
删除重复行后:
name age
0 Alice 18
1 Bob 24
3 David 20
在上述示例中,原始DataFrame中共有4行数据,其中第1行和第3行完全相同,因此使用drop_duplicates()
方法从DataFrame中删除其中一个重复行,最终返回3行不重复的数据。