📜  Pandas DataFrame.describe()(1)

📅  最后修改于: 2023-12-03 14:45:02.395000             🧑  作者: Mango

Pandas DataFrame.describe()

Pandas DataFrame.describe()是一个用于计算DataFrame数据描述统计信息的函数。它提供了包括计数、均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值等指标的汇总统计信息。

以下是一个使用DataFrame.describe()函数的基本示例:

import pandas as pd

# 创建DataFrame
data = {'姓名': ['张三', '李四', '王五', '赵六', '周七'],
        '年龄': [25, 28, 20, 32, 19],
        '身高(cm)': [175, 180, 165, 170, 182],
        '体重(kg)': [70, 80, 60, 75, 72]}
df = pd.DataFrame(data)

# 输出DataFrame的描述统计信息
print(df.describe())

输出结果如下:

             年龄    身高(cm)    体重(kg)
count   5.000000   5.000000   5.000000
mean   24.800000  174.400000  71.400000
std     4.225013    7.794229   7.207875
min    19.000000  165.000000  60.000000
25%    20.000000  170.000000  70.000000
50%    25.000000  175.000000  72.000000
75%    28.000000  180.000000  75.000000
max    32.000000  182.000000  80.000000

上面代码输出了DataFrame的描述统计信息,包括每列数据的数量、均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值等指标。

参数说明

Pandas DataFrame.describe()函数的参数说明如下:

  • percentiles:分位数,默认为[.25, .5, .75]。可以使用浮点数列表指定不同的分位数。
  • include:必须是数据类型(np.number表示数字,object表示字符串、时间等)的列表,默认为None。可以通过传递不同的数据类型来包含不同类型的列。
  • exclude:必须是数据类型的列表,默认为None。可以通过传递不同的数据类型来排除不同类型的列。
  • datetime_is_numeric:布尔值,默认为False。如果为True,则将datetime类型视为数字,计算统计信息。
  • number_format:字符串格式,默认为None。在输出结果中使用指定的字符串格式。
返回值说明

Pandas DataFrame.describe()函数返回一个包含countmeanstdmin25%50%75%max等指标的DataFrame数据描述统计信息。

总结

Pandas DataFrame.describe()函数是一个非常方便且强大的函数,它可以帮助我们计算DataFrame的数据描述统计信息。我们可以通过不同的参数来定制化统计信息的计算,例如指定不同的分位数、包含或排除不同类型的列等。