删除 df 中的重复行 - Python (1)

📌 相关文章

📜 删除 df 中的重复行 - Python (1)

📅 最后修改于: 2023-12-03 15:22:42.078000 🧑 作者: Mango

有时候在处理数据时，我们需要将数据中的重复行删除，以保证数据的准确性。在 Python 中，可以使用 pandas 库来处理数据，其中包括删除重复行的功能。

以下是代码示例：

import pandas as pd

# 读取文件数据
df = pd.read_csv('data.csv')

# 删除重复行
df.drop_duplicates(inplace=True)

# 输出结果
print(df.head())

在上面的代码中，我们首先使用 pd.read_csv() 方法读取文件数据，然后使用 drop_duplicates() 方法删除重复的行，并将结果保存在原数据框中。最后，我们使用 .head() 方法展示前 5 行数据来检查结果是否正确。

需要注意的是，drop_duplicates() 方法默认会删除所有列值都相同的行。如果需要指定特定列来判断重复行，可以在方法中添加 subset 参数，如下所示：

df.drop_duplicates(subset=['col1', 'col2'], inplace=True)

上面的代码中，我们指定 col1 和 col2 列的值相同时为重复行，从而进行删除操作。

总的来说，使用 pandas 来删除数据中的重复行非常方便，而且在数据清洗和分析中也是一个非常常见的操作。