Pandas DataFrame.drop_duplicates()

📌 相关文章

📜 Pandas DataFrame.drop_duplicates()

📅 最后修改于: 2020-10-29 01:56:16 🧑 作者: Mango

Pandas DataFrame.drop_duplicates()

drop_duplicates()函数执行常见的数据清理任务，该任务处理DataFrame中的重复值。此方法有助于从DataFrame中删除重复的值。

句法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参量

subset：它采用一列或列标签列表。它仅考虑用于标识重复项的某些列。默认值无。
keep：用于控制如何考虑重复值。它具有三个不同的值，如下所示：
- first：除去第一次出现的重复值。
- last：删除最后一次出现的重复值。
- errors：删除所有重复项。
inplace：返回布尔值。默认值为False。

如果为true，则删除具有重复值的行。

根据传递的参数，它返回删除了重复行的DataFrame。

例

import pandas as pd
emp = {"Name": ["Parker", "Smith", "William", "Parker"],
"Age": [21, 32, 29, 21]}
info = pd.DataFrame(emp)
print(info)

输出量

        Name     Age
0     Parker     21
1     Smith      32
2     William    29
3     Parker     21

import pandas as pd
emp = {"Name": ["Parker", "Smith", "William", "Parker"],
"Age": [21, 32, 29, 21]}
info = pd.DataFrame(emp)
info = info.drop_duplicates()
print(info)

输出量

       Name    Age
0    Parker    21
1    Smith     32
2    William   29