📅  最后修改于: 2023-12-03 15:04:27.617000             🧑  作者: Mango
在熊猫(Pandas)中,DataFrame提供了一个名为get_duplicates()的方法,用于检测和返回包含重复值的行。这个方法能够帮助程序员快速找到数据集中的重复数据,方便数据清洗和分析。
DataFrame.get_duplicates(subset=None, keep='first')
import pandas as pd
# 创建一个示例DataFrame
data = {'Name': ['John', 'Emma', 'John', 'Emma', 'Tom'],
'Age': [25, 28, 25, 30, 35],
'Country': ['USA', 'Canada', 'USA', 'Canada', 'UK']}
df = pd.DataFrame(data)
# 获取重复的行
duplicates = df.get_duplicates()
print(duplicates)
| | Name | Age | Country | |----|------|-----|---------| | 0 | John | 25 | USA | | 1 | Emma | 30 | Canada |
以上示例代码中,DataFrame中的第3行和第4行被视为重复行,因为它们在'Name'
和'Country'
列上具有相同的值。get_duplicates()方法返回了包含这些重复行的新DataFrame。
程序员可以根据自己的需求使用不同的参数来控制重复值的处理方式。例如,可以通过subset
参数指定要考虑的列,只关注特定列上的重复值。另外,通过keep
参数可以选择保留重复值中的第一个('first')、最后一个('last')或全部(False)。
以上就是关于Python熊猫索引中get_duplicates()方法的介绍。它提供了一个方便的方式来快速查找数据集中的重复数据,并可根据需要进行处理。通过熟练掌握这个方法,程序员可以更有效地进行数据清洗和处理任务。