📜  pandas.duplicated (1)

📅  最后修改于: 2023-12-03 15:18:15.768000             🧑  作者: Mango

pandas.duplicated介绍

pandas是一个强大的数据分析工具,其中的duplicated函数是用来检查DataFrame和Series中是否有重复值的函数。本文将详细介绍pandas.duplicated函数及其相关内容。

函数语法
pandas.duplicated(subset=None, keep='first')
函数参数

duplicated函数有两个常用的参数:

  • subset:用于指定列名,如果指定列名,则只按照指定列名去重。默认值为None,表示所有列参与去重。
  • keep:用于指定保留哪些重复值,可选值为firstlastFalse。默认值为first,表示保留第一个重复出现的值。
函数返回值

duplicated函数返回一个bool类型的Series或者布尔数组,其中True表示对应的行是重复的。

代码演示
import pandas as pd

df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo'],
    'B': [1, 2, 1]
})

print(df.duplicated())  # 输出:0    False  1    False  2     True  dtype: bool
print(df.drop_duplicates())  # 输出:     A  B  0  foo  1  1  1  bar  2  foo

上述代码中,我们先定义了一个DataFrame对象df,然后调用了duplicated函数和drop_duplicates函数。其中,duplicated函数返回了一个Series类型,它的值表示每一行是否是重复行;drop_duplicates函数则直接删除了重复行,并返回去重后的DataFrame。