📜  pandas.duplicated - Python (1)

📅  最后修改于: 2023-12-03 14:45:05.096000             🧑  作者: Mango

pandas.duplicated - Python

pandas.duplicated 方法用于查找数据框(DataFrame)中的重复项。它会返回一个布尔类型(bool)的序列,其中 True 表示重复项,False 表示不是重复项。

以下是该方法的语法:

pandas.duplicated(subset=None, keep='first')

其中,参数 subset 表示要在哪些列中查找重复项,默认为所有列;参数 keep 表示要保留哪个值作为重复项的第一个值,默认为第一个(keep='first')。

示例

以下示例会创建一个数据框并查找其中的重复项:

import pandas as pd

# 创建数据框
data = {'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
        'age': [25, 30, 35, 25],
        'city': ['New York', 'Los Angeles', 'Chicago', 'New York']}
df = pd.DataFrame(data)

# 查找重复项
duplicates = df.duplicated()

print(duplicates)

输出结果如下:

0    False
1    False
2    False
3     True
dtype: bool
忽略重复项

可以通过 drop_duplicates 方法来删除数据框中的重复项,方法如下:

df.drop_duplicates()

使用方法示例如下:

import pandas as pd

# 创建数据框
data = {'name': ['Alice', 'Bob', 'Charlie', 'Alice'],
        'age': [25, 30, 35, 25],
        'city': ['New York', 'Los Angeles', 'Chicago', 'New York']}
df = pd.DataFrame(data)

# 删除重复项
df = df.drop_duplicates()

print(df)

输出结果如下:

      name  age          city
0    Alice   25      New York
1      Bob   30   Los Angeles
2  Charlie   35       Chicago
结论

使用 pandas.duplicated 方法可以方便地查找数据框中的重复项,并结合 drop_duplicates 方法来删除重复项,从而对数据框进行去重操作。