📜  删除 df 中的重复行 - Python (1)

📅  最后修改于: 2023-12-03 15:22:42.078000             🧑  作者: Mango

删除 df 中的重复行 - Python

有时候在处理数据时,我们需要将数据中的重复行删除,以保证数据的准确性。在 Python 中,可以使用 pandas 库来处理数据,其中包括删除重复行的功能。

以下是代码示例:

import pandas as pd

# 读取文件数据
df = pd.read_csv('data.csv')

# 删除重复行
df.drop_duplicates(inplace=True)

# 输出结果
print(df.head())

在上面的代码中,我们首先使用 pd.read_csv() 方法读取文件数据,然后使用 drop_duplicates() 方法删除重复的行,并将结果保存在原数据框中。最后,我们使用 .head() 方法展示前 5 行数据来检查结果是否正确。

需要注意的是,drop_duplicates() 方法默认会删除所有列值都相同的行。如果需要指定特定列来判断重复行,可以在方法中添加 subset 参数,如下所示:

df.drop_duplicates(subset=['col1', 'col2'], inplace=True)

上面的代码中,我们指定 col1 和 col2 列的值相同时为重复行,从而进行删除操作。

总的来说,使用 pandas 来删除数据中的重复行非常方便,而且在数据清洗和分析中也是一个非常常见的操作。