📅  最后修改于: 2023-12-03 15:18:15.768000             🧑  作者: Mango
pandas
是一个强大的数据分析工具,其中的duplicated
函数是用来检查DataFrame和Series中是否有重复值的函数。本文将详细介绍pandas.duplicated
函数及其相关内容。
pandas.duplicated(subset=None, keep='first')
duplicated
函数有两个常用的参数:
subset
:用于指定列名,如果指定列名,则只按照指定列名去重。默认值为None
,表示所有列参与去重。keep
:用于指定保留哪些重复值,可选值为first
、last
、False
。默认值为first
,表示保留第一个重复出现的值。duplicated
函数返回一个bool
类型的Series或者布尔数组,其中True
表示对应的行是重复的。
import pandas as pd
df = pd.DataFrame({
'A': ['foo', 'bar', 'foo'],
'B': [1, 2, 1]
})
print(df.duplicated()) # 输出:0 False 1 False 2 True dtype: bool
print(df.drop_duplicates()) # 输出: A B 0 foo 1 1 1 bar 2 foo
上述代码中,我们先定义了一个DataFrame对象df
,然后调用了duplicated
函数和drop_duplicates
函数。其中,duplicated
函数返回了一个Series类型,它的值表示每一行是否是重复行;drop_duplicates
函数则直接删除了重复行,并返回去重后的DataFrame。