Pandas 删除重复项 - Python (1) - 芒果文档

📌 相关文章

📜 Pandas 删除重复项 - Python (1)

📅 最后修改于: 2023-12-03 14:45:03.517000 🧑 作者: Mango

Pandas 删除重复项 - Python

在数据处理中，有时候会遇到重复的数据行。Pandas是一个强大的Python库，可以方便地删除重复的数据行。

1. 导入Pandas库

首先，我们需要导入Pandas库。

import pandas as pd

2. 创建DataFrame

接下来，我们需要创建一个DataFrame。我们可以使用以下代码来创建一个简单的DataFrame。

df = pd.DataFrame({'A': [1, 2, 3, 2], 'B': [4, 5, 6, 5]})
print(df)

输出结果如下：

3. 删除重复项

Pandas提供了drop_duplicates()函数来删除DataFrame中的重复项。我们可以使用以下代码删除DataFrame中的重复项。

df.drop_duplicates(inplace=True)
print(df)

这将删除DataFrame中的重复项，并将结果存储在原始DataFrame中。输出结果如下：

我们可以看到，重复的行已被删除。

4. 按列删除重复项

有时候，我们只需要根据特定的列来删除重复项。我们可以在drop_duplicates()函数中指定列名来删除特定列的重复项。

df.drop_duplicates(subset=['B'], inplace=True)
print(df)

这将根据列B删除重复项。输出结果如下：

我们可以看到，只有第一个重复的行被保留了下来，其他的重复的行都被删除了。

5. 结论

在本文中，我们学习了如何使用Pandas来删除DataFrame中的重复项。我们还学习了如何按列删除重复项。Pandas是一个非常强大的Python库，它提供了很多方便的函数来处理数据。