📅  最后修改于: 2023-12-03 14:45:02.395000             🧑  作者: Mango
Pandas DataFrame.describe()
是一个用于计算DataFrame数据描述统计信息的函数。它提供了包括计数、均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值等指标的汇总统计信息。
以下是一个使用DataFrame.describe()
函数的基本示例:
import pandas as pd
# 创建DataFrame
data = {'姓名': ['张三', '李四', '王五', '赵六', '周七'],
'年龄': [25, 28, 20, 32, 19],
'身高(cm)': [175, 180, 165, 170, 182],
'体重(kg)': [70, 80, 60, 75, 72]}
df = pd.DataFrame(data)
# 输出DataFrame的描述统计信息
print(df.describe())
输出结果如下:
年龄 身高(cm) 体重(kg)
count 5.000000 5.000000 5.000000
mean 24.800000 174.400000 71.400000
std 4.225013 7.794229 7.207875
min 19.000000 165.000000 60.000000
25% 20.000000 170.000000 70.000000
50% 25.000000 175.000000 72.000000
75% 28.000000 180.000000 75.000000
max 32.000000 182.000000 80.000000
上面代码输出了DataFrame的描述统计信息,包括每列数据的数量、均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值等指标。
Pandas DataFrame.describe()
函数的参数说明如下:
percentiles
:分位数,默认为[.25, .5, .75]
。可以使用浮点数列表指定不同的分位数。include
:必须是数据类型(np.number
表示数字,object
表示字符串、时间等)的列表,默认为None
。可以通过传递不同的数据类型来包含不同类型的列。exclude
:必须是数据类型的列表,默认为None
。可以通过传递不同的数据类型来排除不同类型的列。datetime_is_numeric
:布尔值,默认为False
。如果为True
,则将datetime类型视为数字,计算统计信息。number_format
:字符串格式,默认为None
。在输出结果中使用指定的字符串格式。Pandas DataFrame.describe()
函数返回一个包含count
、mean
、std
、min
、25%
、50%
、75%
、max
等指标的DataFrame数据描述统计信息。
Pandas DataFrame.describe()
函数是一个非常方便且强大的函数,它可以帮助我们计算DataFrame的数据描述统计信息。我们可以通过不同的参数来定制化统计信息的计算,例如指定不同的分位数、包含或排除不同类型的列等。