📅  最后修改于: 2023-12-03 15:24:35.322000             🧑  作者: Mango
在数据分析和数据处理中,经常需要检查数据集中是否存在重复的行或列。在 Python 中,可以使用 Pandas 库来检查列中的重复项。
以下是在 Python 中检查列中的重复项的步骤:
import pandas as pd
使用 Pandas 的 read_csv() 函数来读取 CSV 格式的数据集,或使用其他可用的 Pandas 函数来读取不同格式的数据集。
df = pd.read_csv('data.csv')
使用 Pandas 的 duplicated() 函数来检查是否存在重复的列。
duplicates = df[df.duplicated(['column_name'])]
其中,'column_name' 是要检查重复项的列名。如果不指定列名,将默认检查所有列的重复项。
使用 Pandas 的 head() 函数显示前几行,以便查看重复的行。
print(duplicates.head())
使用 Pandas 的 drop_duplicates() 函数删除重复的行。
df.drop_duplicates(['column_name'], keep='last', inplace=True)
其中,'keep' 参数用于指定保留重复行的哪一个副本。默认情况下,保留第一个副本并删除其余副本。在此示例中,我们保留最后一个副本。
import pandas as pd
df = pd.read_csv('data.csv')
duplicates = df[df.duplicated(['column_name'])]
print(duplicates.head())
df.drop_duplicates(['column_name'], keep='last', inplace=True)