📅  最后修改于: 2023-12-03 15:34:20.624000             🧑  作者: Mango
熊猫(Pandas)是Python中的数据分析库,它提供了丰富高效的数据结构与数据分析工具,让数据分析变得快速、简单。
Pandas的核心数据结构是 DataFrame 和 Series,通过调用各种方法和函数,可以轻松地进行数据清洗、处理和分析。其中,.describe()
是一种非常有用的函数,可以用于查看数据的统计信息。本文将介绍有关DataFrame.describe()
的内容。
**DataFrame.describe()**是一种用于生成有关DataFrame中各列统计信息的摘要的函数。 它包括DataFrame的计数,平均值,标准差,最小值,25%,50%和75%的百分位数以及最大值。
使用.describe()
函数时,默认情况下仅为数值列生成摘要。如果想要计算所有列的统计信息,可以使用include和exclude参数控制列的范围。例如,如果要计算所有列的摘要,可以使用include='all'
。
下面是使用.describe()
的示例代码:
import pandas as pd
# 生成示例数据
data = {
'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eric'],
'age': [25, 32, 18, 47, 54],
'gender': ['F', 'M', 'F', 'M', 'M'],
'income': [50000, 80000, 12000, 220000, 75000]
}
df = pd.DataFrame(data)
# 查看数值列的统计信息
print(df.describe())
# 查看所有列的统计信息
print(df.describe(include='all')))
输出结果如下:
age income
count 5.000000 5.000000
mean 35.200000 86900.000000
std 16.376528 74222.590596
min 18.000000 12000.000000
25% 25.000000 50000.000000
50% 32.000000 75000.000000
75% 47.000000 80000.000000
max 54.000000 220000.000000
name age gender income
count 5 5.000000 5 5.000000
unique 5 NaN 2 NaN
top Alice NaN M NaN
freq 1 NaN 3 NaN
mean NaN 35.200000 NaN 86900.000000
std NaN 16.376528 NaN 74222.590596
min NaN 18.000000 NaN 12000.000000
25% NaN 25.000000 NaN 50000.000000
50% NaN 32.000000 NaN 75000.000000
75% NaN 47.000000 NaN 80000.000000
max NaN 54.000000 NaN 220000.000000
从上面的结果可以看出,.describe()
函数可以为数值列生成各种统计信息,如均值、标准差、百分位数等。同时,使用describe(include='all')
可以为所有列生成统计信息,包括非数字列。此外, describe()函数还可以通过参数控制输出结果的格式、保留小数位数等。
总之,.describe()是一种非常有用的函数,可以为数据分析提供基础统计信息。通过本文的介绍,您已经了解了一些关于.describe()函数的内容,相信这对于您的数据分析工作会有所帮助。