📅  最后修改于: 2023-12-03 14:50:44.404000             🧑  作者: Mango
当我们需要对数据集的唯一值进行相对频率分析时,可以使用 pandas 中的 value_counts() 方法。
首先,我们需要准备一些数据来进行分析。这里我们使用一个包含学生年级信息的数据集来作为例子。
import pandas as pd
# 创建数据集
df = pd.DataFrame({
'Grade': ['A', 'B', 'C', 'C', 'A', 'B', 'B', 'C', 'A', 'A']
})
这里我们创建了一个包含 10 条记录的 DataFrame,其中 Grade 列表示学生的年级。
有了数据之后,我们可以调用 value_counts() 方法来计算每个唯一值出现的次数。代码如下:
# 计算每个唯一值的次数
counts = df['Grade'].value_counts()
# 计算每个唯一值的相对频率
freq = counts / counts.sum()
# 打印结果
print(freq)
这段代码会输出每个唯一值的相对频率:
A 0.4
B 0.3
C 0.3
Name: Grade, dtype: float64
从输出的结果可以看出,学生年级的相对频率为:A 的占 40%,B 的占 30%,C 的占 30%。这对于了解数据分布情况非常有用。
以上就是使用 pandas 计算唯一值相对频率的方法。使用这种方法可以快速计算出每个唯一值的相对频率,并对数据分布进行分析和可视化。