📅  最后修改于: 2023-12-03 14:46:22.562000             🧑  作者: Mango
Pandas describe()
方法用于计算数值数据的基本统计量,例如均值、标准差和四分位数。该方法返回的是一个包含若干统计信息的 Pandas 数据框,包括样本数、均值、标准差、最小值、25% 分位数、50% 分位数、75% 分位数和最大值。此外,对于非数值列,该方法也提供了计数、唯一值、出现频率的统计。
DataFrame.describe(percentiles=None, include=None, exclude=None)
percentiles
:指定要计算的百分位数,缺省为[.25, .5, .75]
include
:指定要包括的数据类型,缺省为数值类型。exclude
:指定要排除的数据类型。返回一个 Pandas 数据框,包含数值数据的统计信息。
import pandas as pd
# 创建一个数据框
data = {'name': ['Alice', 'Bob', 'Chris', 'David', 'Ella'],
'age': [21, 23, 25, 27, 29],
'height': [165, 170, 175, 180, 185],
'weight': [50, 60, 70, 80, 90]}
df = pd.DataFrame(data)
# 输出数据框的描述性统计信息
print(df.describe())
输出结果:
age height weight
count 5.000000 5.000000 5.000000
mean 25.000000 175.000000 70.000000
std 3.162278 7.905694 16.431677
min 21.000000 165.000000 50.000000
25% 23.000000 170.000000 60.000000
50% 25.000000 175.000000 70.000000
75% 27.000000 180.000000 80.000000
max 29.000000 185.000000 90.000000
从输出结果中我们可以看到,数据框的 describe()
方法计算了数据的样本数量、均值、标准差、最小值、25% 分位数、50% 分位数、75% 分位数和最大值等基本统计量。对于离散型变量(例如 name
列),只计算了计数、唯一值和出现频率等统计信息。