📜  Python|熊猫 Dataframe.duplicated()

📅  最后修改于: 2022-05-13 01:55:30.878000             🧑  作者: Mango

Python|熊猫 Dataframe.duplicated()

Python是一种用于进行数据分析的出色语言,主要是因为以数据为中心的Python包的奇妙生态系统。 Pandas就是其中之一,它使导入和分析数据变得更加容易。
数据分析的一个重要部分是分析重复值并删除它们。 Pandas duplicated()方法仅有助于分析重复值。它返回一个布尔系列,该系列仅适用于唯一元素。
句法:

DataFrame.duplicated(subset=None, keep='first')

参数:

要下载使用的 CSV 文件,请单击此处。
示例 #1:返回一个布尔系列
在以下示例中,根据 First Name 列中的重复值返回一个布尔系列。

Python
# importing pandas package
import pandas as pd
 
# making data frame from csv file
data = pd.read_csv("employees.csv")
 
# sorting by first name
data.sort_values("First Name", inplace = True)
 
# making a bool series
bool_series = data["First Name"].duplicated()
 
# displaying data
data.head()
 
# display data
data[bool_series]


Python
# importing pandas package
import pandas as pd
 
# making data frame from csv file
data = pd.read_csv("employees.csv")
 
# sorting by first name
data.sort_values("First Name", inplace = True)
 
# making a bool series
bool_series = data["First Name"].duplicated(keep = False)
 
# bool series
bool_series
 
# passing NOT of bool series to see unique values only
data = data[~bool_series]
 
# displaying data
data.info()
data


输出:
如输出图像所示,由于 keep 参数默认为“first”,因此无论何时出现名称,第一个都被认为是唯一的并且 res Duplicate。


示例 #2:删除重复项
在此示例中,keep 参数设置为 False,以便仅采用唯一值并从数据中删除重复值。

Python

# importing pandas package
import pandas as pd
 
# making data frame from csv file
data = pd.read_csv("employees.csv")
 
# sorting by first name
data.sort_values("First Name", inplace = True)
 
# making a bool series
bool_series = data["First Name"].duplicated(keep = False)
 
# bool series
bool_series
 
# passing NOT of bool series to see unique values only
data = data[~bool_series]
 
# displaying data
data.info()
data

输出:
由于 duplicated() 方法对 Duplicates 返回 False,因此采用系列的 NOT 来查看 Data Frame 中的唯一值。