📅  最后修改于: 2023-12-03 15:04:26.770000             🧑  作者: Mango
在使用Python做数据处理时,用熊猫(Pandas)这个Python数据处理库是非常常见的。其中,dataframe
是熊猫中最常用的数据类型,是用于处理类似于表格的二维数据结构的。dataframe.nunique()
是熊猫中的一个函数,可以用于返回每列中不同值的数量。
dataframe.nunique(axis=0, dropna=True)
axis
:用来指定统计的轴方向,0表示列,1表示行(默认为0)。dropna
:布尔值,表示是否忽略缺失值(默认为True)。返回每列/行中不同值的数量。
假设现在有如下的一个数据集,其中有col1
、col2
、col3
和col4
四列:
| col1 | col2 | col3 | col4 | | ---- | ---- | ----- | ---- | | A | B | X | 1 | | A | B | X | 1 | | C | D | Y | 2 | | C | E | Y | NaN |
我们可以使用dataframe.nunique()
来统计每列不同值的数量:
import pandas as pd
df = pd.read_csv("data.csv")
print(df.nunique())
输出结果为:
col1 2
col2 3
col3 2
col4 3
dtype: int64
可以看到,dataframe.nunique()
函数返回了一个Pandas Series对象,其中包含每列不同值的数量。从结果中可以看出:
col1
这一列有两个不同的值(A和C);col2
这一列有三个不同的值(B、D和E);col3
这一列有两个不同的值(X和Y);col4
这一列有三个不同的值(1、2和NaN)。dataframe.nunique()
函数可以用于返回每列/行中不同值的数量。在数据分析和数据处理中非常有用。