Python| Pandas Dataframe.describe() 方法(1)

📌 相关文章

📜 Python| Pandas Dataframe.describe() 方法(1)

📅 最后修改于: 2023-12-03 14:46:22.562000 🧑 作者: Mango

Python | Pandas Dataframe.describe() 方法

Pandas describe() 方法用于计算数值数据的基本统计量，例如均值、标准差和四分位数。该方法返回的是一个包含若干统计信息的 Pandas 数据框，包括样本数、均值、标准差、最小值、25% 分位数、50% 分位数、75% 分位数和最大值。此外，对于非数值列，该方法也提供了计数、唯一值、出现频率的统计。

语法

DataFrame.describe(percentiles=None, include=None, exclude=None)

参数

percentiles：指定要计算的百分位数，缺省为[.25, .5, .75]
include：指定要包括的数据类型，缺省为数值类型。
exclude：指定要排除的数据类型。

返回值

返回一个 Pandas 数据框，包含数值数据的统计信息。

示例

import pandas as pd

# 创建一个数据框
data = {'name': ['Alice', 'Bob', 'Chris', 'David', 'Ella'],
        'age': [21, 23, 25, 27, 29],
        'height': [165, 170, 175, 180, 185],
        'weight': [50, 60, 70, 80, 90]}
df = pd.DataFrame(data)

# 输出数据框的描述性统计信息
print(df.describe())

输出结果：

             age      height     weight
count   5.000000    5.000000   5.000000
mean   25.000000  175.000000  70.000000
std     3.162278    7.905694  16.431677
min    21.000000  165.000000  50.000000
25%    23.000000  170.000000  60.000000
50%    25.000000  175.000000  70.000000
75%    27.000000  180.000000  80.000000
max    29.000000  185.000000  90.000000

从输出结果中我们可以看到，数据框的 describe() 方法计算了数据的样本数量、均值、标准差、最小值、25% 分位数、50% 分位数、75% 分位数和最大值等基本统计量。对于离散型变量（例如 name 列），只计算了计数、唯一值和出现频率等统计信息。