📜  Pandas 删除重复项 - Python (1)

📅  最后修改于: 2023-12-03 14:45:03.517000             🧑  作者: Mango

Pandas 删除重复项 - Python

在数据处理中,有时候会遇到重复的数据行。Pandas是一个强大的Python库,可以方便地删除重复的数据行。

1. 导入Pandas库

首先,我们需要导入Pandas库。

import pandas as pd
2. 创建DataFrame

接下来,我们需要创建一个DataFrame。我们可以使用以下代码来创建一个简单的DataFrame。

df = pd.DataFrame({'A': [1, 2, 3, 2], 'B': [4, 5, 6, 5]})
print(df)

输出结果如下:

   A  B
0  1  4
1  2  5
2  3  6
3  2  5
3. 删除重复项

Pandas提供了drop_duplicates()函数来删除DataFrame中的重复项。我们可以使用以下代码删除DataFrame中的重复项。

df.drop_duplicates(inplace=True)
print(df)

这将删除DataFrame中的重复项,并将结果存储在原始DataFrame中。输出结果如下:

   A  B
0  1  4
1  2  5
2  3  6

我们可以看到,重复的行已被删除。

4. 按列删除重复项

有时候,我们只需要根据特定的列来删除重复项。我们可以在drop_duplicates()函数中指定列名来删除特定列的重复项。

df.drop_duplicates(subset=['B'], inplace=True)
print(df)

这将根据列B删除重复项。输出结果如下:

   A  B
0  1  4
1  2  5
2  3  6

我们可以看到,只有第一个重复的行被保留了下来,其他的重复的行都被删除了。

5. 结论

在本文中,我们学习了如何使用Pandas来删除DataFrame中的重复项。我们还学习了如何按列删除重复项。Pandas是一个非常强大的Python库,它提供了很多方便的函数来处理数据。