📜  Python| Pandas Dataframe.describe() 方法(1)

📅  最后修改于: 2023-12-03 14:46:22.562000             🧑  作者: Mango

Python | Pandas Dataframe.describe() 方法

Pandas describe() 方法用于计算数值数据的基本统计量,例如均值、标准差和四分位数。该方法返回的是一个包含若干统计信息的 Pandas 数据框,包括样本数、均值、标准差、最小值、25% 分位数、50% 分位数、75% 分位数和最大值。此外,对于非数值列,该方法也提供了计数、唯一值、出现频率的统计。

语法
DataFrame.describe(percentiles=None, include=None, exclude=None)
参数
  • percentiles:指定要计算的百分位数,缺省为[.25, .5, .75]
  • include:指定要包括的数据类型,缺省为数值类型。
  • exclude:指定要排除的数据类型。
返回值

返回一个 Pandas 数据框,包含数值数据的统计信息。

示例
import pandas as pd

# 创建一个数据框
data = {'name': ['Alice', 'Bob', 'Chris', 'David', 'Ella'],
        'age': [21, 23, 25, 27, 29],
        'height': [165, 170, 175, 180, 185],
        'weight': [50, 60, 70, 80, 90]}
df = pd.DataFrame(data)

# 输出数据框的描述性统计信息
print(df.describe())

输出结果:

             age      height     weight
count   5.000000    5.000000   5.000000
mean   25.000000  175.000000  70.000000
std     3.162278    7.905694  16.431677
min    21.000000  165.000000  50.000000
25%    23.000000  170.000000  60.000000
50%    25.000000  175.000000  70.000000
75%    27.000000  180.000000  80.000000
max    29.000000  185.000000  90.000000

从输出结果中我们可以看到,数据框的 describe() 方法计算了数据的样本数量、均值、标准差、最小值、25% 分位数、50% 分位数、75% 分位数和最大值等基本统计量。对于离散型变量(例如 name 列),只计算了计数、唯一值和出现频率等统计信息。