Python| Pandas Index.duplicated()
Python是一种用于进行数据分析的出色语言,主要是因为以数据为中心的Python包的奇妙生态系统。 Pandas就是其中之一,它使导入和分析数据变得更加容易。
Pandas Index.duplicated()
函数指示重复的索引值。重复值在结果数组中表示为True值。可以指示所有重复,除了第一个之外的所有重复,或者除了最后一次出现的重复之外的所有重复。
Syntax: Index.duplicated(keep=’first’)
Parameters :
keep : {‘first’, ‘last’, False}, default ‘first’
The value or values in a set of duplicates to mark as missing.
-> ‘first’ : Mark duplicates as True except for the first occurrence.
-> ‘last’ : Mark duplicates as True except for the last occurrence.
-> False : Mark all duplicates as True.
Returns : numpy.ndarray
示例 #1:使用Index.duplicated()
函数指示索引中除第一个之外的所有重复值。
# importing pandas as pd
import pandas as pd
# Creating the Index
idx = pd.Index(['Labrador', 'Beagle', 'Labrador',
'Lhasa', 'Husky', 'Beagle'])
# Print the Index
idx
输出 :
让我们找出 Index 中存在的值是重复值还是唯一值。
# Identify the duplicated values except the first
idx.duplicated(keep ='first')
输出 :
正如我们在输出中看到的那样, Index.duplicated()
函数已将所有重复值的出现标记为True
,但第一次出现除外。示例 #2:使用Index.duplicated()
函数来识别所有重复值。这里所有重复的值都将被标记为True
# importing pandas as pd
import pandas as pd
# Creating the Index
idx = pd.Index([100, 50, 45, 100, 12, 50, None])
# Print the Index
idx
输出 :
让我们识别索引中的所有重复值。
注意:我们在索引中有NaN
值。
# Identify all duplicated occurrence of values
idx.duplicated(keep = False)
输出 :
该函数已将所有重复值标记为 True。它还将NaN
值的单次出现视为唯一并将其标记为 false。