📜  Python|熊猫系列.describe()(1)

📅  最后修改于: 2023-12-03 15:34:20.624000             🧑  作者: Mango

Python | 熊猫系列.describe() 介绍

熊猫(Pandas)是Python中的数据分析库,它提供了丰富高效的数据结构与数据分析工具,让数据分析变得快速、简单。

Pandas的核心数据结构是 DataFrameSeries,通过调用各种方法和函数,可以轻松地进行数据清洗、处理和分析。其中,.describe() 是一种非常有用的函数,可以用于查看数据的统计信息。本文将介绍有关DataFrame.describe()的内容。

DataFrame.describe()

**DataFrame.describe()**是一种用于生成有关DataFrame中各列统计信息的摘要的函数。 它包括DataFrame的计数,平均值,标准差,最小值,25%,50%和75%的百分位数以及最大值。

使用.describe()函数时,默认情况下仅为数值列生成摘要。如果想要计算所有列的统计信息,可以使用includeexclude参数控制列的范围。例如,如果要计算所有列的摘要,可以使用include='all'

下面是使用.describe()的示例代码:

import pandas as pd

# 生成示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eric'],
    'age': [25, 32, 18, 47, 54],
    'gender': ['F', 'M', 'F', 'M', 'M'],
    'income': [50000, 80000, 12000, 220000, 75000]
}
df = pd.DataFrame(data)

# 查看数值列的统计信息
print(df.describe())

# 查看所有列的统计信息
print(df.describe(include='all')))

输出结果如下:

             age         income
count   5.000000       5.000000
mean   35.200000   86900.000000
std    16.376528   74222.590596
min    18.000000   12000.000000
25%    25.000000   50000.000000
50%    32.000000   75000.000000
75%    47.000000   80000.000000
max    54.000000  220000.000000

         name        age gender         income
count       5   5.000000      5       5.000000
unique      5        NaN      2            NaN
top     Alice        NaN      M            NaN
freq        1        NaN      3            NaN
mean      NaN  35.200000    NaN   86900.000000
std       NaN  16.376528    NaN   74222.590596
min       NaN  18.000000    NaN   12000.000000
25%       NaN  25.000000    NaN   50000.000000
50%       NaN  32.000000    NaN   75000.000000
75%       NaN  47.000000    NaN   80000.000000
max       NaN  54.000000    NaN  220000.000000

从上面的结果可以看出,.describe()函数可以为数值列生成各种统计信息,如均值、标准差、百分位数等。同时,使用describe(include='all')可以为所有列生成统计信息,包括非数字列。此外, describe()函数还可以通过参数控制输出结果的格式、保留小数位数等。

总之,.describe()是一种非常有用的函数,可以为数据分析提供基础统计信息。通过本文的介绍,您已经了解了一些关于.describe()函数的内容,相信这对于您的数据分析工作会有所帮助。