pandas.duplicated (1) - 芒果文档

📌 相关文章

📜 pandas.duplicated (1)

📅 最后修改于: 2023-12-03 15:18:15.768000 🧑 作者: Mango

pandas.duplicated介绍

pandas是一个强大的数据分析工具，其中的duplicated函数是用来检查DataFrame和Series中是否有重复值的函数。本文将详细介绍pandas.duplicated函数及其相关内容。

函数语法

pandas.duplicated(subset=None, keep='first')

函数参数

duplicated函数有两个常用的参数：

subset：用于指定列名，如果指定列名，则只按照指定列名去重。默认值为None，表示所有列参与去重。
keep：用于指定保留哪些重复值，可选值为first、last、False。默认值为first，表示保留第一个重复出现的值。

函数返回值

duplicated函数返回一个bool类型的Series或者布尔数组，其中True表示对应的行是重复的。

代码演示

import pandas as pd

df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo'],
    'B': [1, 2, 1]
})

print(df.duplicated())  # 输出：0    False  1    False  2     True  dtype: bool
print(df.drop_duplicates())  # 输出：     A  B  0  foo  1  1  1  bar  2  foo

上述代码中，我们先定义了一个DataFrame对象df，然后调用了duplicated函数和drop_duplicates函数。其中，duplicated函数返回了一个Series类型，它的值表示每一行是否是重复行；drop_duplicates函数则直接删除了重复行，并返回去重后的DataFrame。