📅  最后修改于: 2023-12-03 15:07:06.938000             🧑  作者: Mango
当我们处理数据时,有时候需要找出数据帧中的唯一值以及它们的计数,这在数据分析和统计中是很常见的操作。在 Python 中,可以使用 pandas
库来处理数据帧。
在使用 pandas
库之前,需要先导入相关依赖:
import pandas as pd
为了演示如何找出数据帧中的唯一值和计数,我们需要先创建一个示例数据帧。以下代码创建了一个具有重复值的数据帧:
df = pd.DataFrame({'name': ['John', 'Mary', 'John', 'Emma', 'Mary', 'John', 'John'],
'age': [28, 31, 22, 19, 25, 35, 21]})
print(df)
输出如下:
name age
0 John 28
1 Mary 31
2 John 22
3 Emma 19
4 Mary 25
5 John 35
6 John 21
使用 value_counts()
方法可以很容易地找出数据帧中的唯一值及它们的计数。以下代码演示了如何找出数据帧中 name
列的唯一值及计数:
name_counts = df['name'].value_counts()
print(name_counts)
输出如下:
John 4
Mary 2
Emma 1
Name: name, dtype: int64
其中,索引(即第一列)是唯一值,值(即第二列)是对应的计数。
如果只需要找出数据帧中的唯一值而不需要它们的计数,可以使用 unique()
方法。以下代码演示了如何找出数据帧中 name
列的所有唯一值:
unique_names = df['name'].unique()
print(unique_names)
输出如下:
['John' 'Mary' 'Emma']
在 Python 中使用 pandas
库可以很容易地找出数据帧中的唯一值及它们的计数。使用 value_counts()
方法可以同时找出唯一值和计数,使用 unique()
方法则只能找出唯一值。这些方法在数据分析和统计中是很常用的,掌握它们可以帮助我们更方便地分析数据。