Python|熊猫系列.describe()(1)

📌 相关文章

📜 Python|熊猫系列.describe()(1)

📅 最后修改于: 2023-12-03 15:34:20.624000 🧑 作者: Mango

Python | 熊猫系列.describe() 介绍

熊猫(Pandas)是Python中的数据分析库，它提供了丰富高效的数据结构与数据分析工具，让数据分析变得快速、简单。

Pandas的核心数据结构是 DataFrame 和 Series，通过调用各种方法和函数，可以轻松地进行数据清洗、处理和分析。其中，.describe() 是一种非常有用的函数，可以用于查看数据的统计信息。本文将介绍有关DataFrame.describe()的内容。

DataFrame.describe()

**DataFrame.describe()**是一种用于生成有关DataFrame中各列统计信息的摘要的函数。它包括DataFrame的计数，平均值，标准差，最小值，25％，50％和75％的百分位数以及最大值。

使用.describe()函数时，默认情况下仅为数值列生成摘要。如果想要计算所有列的统计信息，可以使用include和exclude参数控制列的范围。例如，如果要计算所有列的摘要，可以使用include='all'。

下面是使用.describe()的示例代码：

import pandas as pd

# 生成示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eric'],
    'age': [25, 32, 18, 47, 54],
    'gender': ['F', 'M', 'F', 'M', 'M'],
    'income': [50000, 80000, 12000, 220000, 75000]
}
df = pd.DataFrame(data)

# 查看数值列的统计信息
print(df.describe())

# 查看所有列的统计信息
print(df.describe(include='all')))

输出结果如下：

             age         income
count   5.000000       5.000000
mean   35.200000   86900.000000
std    16.376528   74222.590596
min    18.000000   12000.000000
25%    25.000000   50000.000000
50%    32.000000   75000.000000
75%    47.000000   80000.000000
max    54.000000  220000.000000

         name        age gender         income
count       5   5.000000      5       5.000000
unique      5        NaN      2            NaN
top     Alice        NaN      M            NaN
freq        1        NaN      3            NaN
mean      NaN  35.200000    NaN   86900.000000
std       NaN  16.376528    NaN   74222.590596
min       NaN  18.000000    NaN   12000.000000
25%       NaN  25.000000    NaN   50000.000000
50%       NaN  32.000000    NaN   75000.000000
75%       NaN  47.000000    NaN   80000.000000
max       NaN  54.000000    NaN  220000.000000

从上面的结果可以看出，.describe()函数可以为数值列生成各种统计信息，如均值、标准差、百分位数等。同时，使用describe(include='all')可以为所有列生成统计信息，包括非数字列。此外， describe()函数还可以通过参数控制输出结果的格式、保留小数位数等。

总之，.describe()是一种非常有用的函数，可以为数据分析提供基础统计信息。通过本文的介绍，您已经了解了一些关于.describe()函数的内容，相信这对于您的数据分析工作会有所帮助。