📅  最后修改于: 2023-12-03 14:45:05.096000             🧑  作者: Mango
pandas.duplicated
方法用于查找数据框(DataFrame)中的重复项。它会返回一个布尔类型(bool)的序列,其中 True 表示重复项,False 表示不是重复项。
以下是该方法的语法:
pandas.duplicated(subset=None, keep='first')
其中,参数 subset
表示要在哪些列中查找重复项,默认为所有列;参数 keep
表示要保留哪个值作为重复项的第一个值,默认为第一个(keep='first'
)。
以下示例会创建一个数据框并查找其中的重复项:
import pandas as pd
# 创建数据框
data = {'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
'age': [25, 30, 35, 25],
'city': ['New York', 'Los Angeles', 'Chicago', 'New York']}
df = pd.DataFrame(data)
# 查找重复项
duplicates = df.duplicated()
print(duplicates)
输出结果如下:
0 False
1 False
2 False
3 True
dtype: bool
可以通过 drop_duplicates
方法来删除数据框中的重复项,方法如下:
df.drop_duplicates()
使用方法示例如下:
import pandas as pd
# 创建数据框
data = {'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
'age': [25, 30, 35, 25],
'city': ['New York', 'Los Angeles', 'Chicago', 'New York']}
df = pd.DataFrame(data)
# 删除重复项
df = df.drop_duplicates()
print(df)
输出结果如下:
name age city
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
使用 pandas.duplicated
方法可以方便地查找数据框中的重复项,并结合 drop_duplicates
方法来删除重复项,从而对数据框进行去重操作。