📜  如何获取 Pandas DataFrame 的描述性统计数据?(1)

📅  最后修改于: 2023-12-03 15:09:14.510000             🧑  作者: Mango

如何获取 Pandas DataFrame 的描述性统计数据?

Pandas 是一个强大的数据处理库,可以处理各种结构化数据。DataFrame 是 Pandas 库中最重要的数据类型之一,它是一个表格型的数据结构,可以方便地进行数据处理和分析。在 DataFrame 中,我们经常需要获取描述性统计数据,以便更好地了解数据的特征,并进行相应的处理和分析。

描述性统计数据包括哪些指标?

Pandas 中常用的描述性统计指标包括:

  • count:非空元素计数
  • mean:平均数
  • std:标准差
  • min:最小值
  • 25%、50%、75%:分位数
  • max:最大值
如何获取 DataFrame 中的描述性统计数据?

获取 DataFrame 中的描述性统计数据非常简单,只需要调用 Pandas 库中的 describe() 方法即可。下面是示例代码:

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'age': [25, 32, 18, 47, 22],
    'height': [165, 180, 168, 175, 162],
    'weight': [65, 75, 50, 70, 52]
})

# 获取 DataFrame 的描述性统计数据
print(df.describe())

运行以上代码,就可以得到如下输出结果:

             age      height     weight
count   5.000000    5.000000   5.000000
mean   28.800000  170.000000  62.400000
std    12.388186    7.745967  10.695752
min    18.000000  162.000000  50.000000
25%    22.000000  165.000000  52.000000
50%    25.000000  168.000000  65.000000
75%    32.000000  175.000000  70.000000
max    47.000000  180.000000  75.000000

可以看到,输出结果包括了每个指标的计数、平均数、标准差、最小值、最大值以及分位数等信息。

如何获取部分描述性统计数据?

有时候我们只需要 DataFrame 中的部分描述性统计数据,比如只需要计数和平均值等指标。在这种情况下,可以使用 Pandas 的基本统计方法。下面是示例代码:

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'age': [25, 32, 18, 47, 22],
    'height': [165, 180, 168, 175, 162],
    'weight': [65, 75, 50, 70, 52]
})

# 获取 DataFrame 中指定的描述性统计数据
print("计数:")
print(df.count())
print("平均值:")
print(df.mean())
print("标准差:")
print(df.std())

运行以上代码,就可以得到如下输出结果:

计数:
name      5
age       5
height    5
weight    5
dtype: int64
平均值:
age        28.8
height    170.0
weight     62.4
dtype: float64
标准差:
age        12.388186
height      7.745967
weight     10.695752
dtype: float64

可以看到,输出结果只包括了指定的计数、平均值和标准差等信息。

总结

获取 Pandas DataFrame 的描述性统计数据非常简单,只需要调用 describe() 方法即可。如果需要获取部分描述性统计数据,可以使用 Pandas 的基本统计方法。在实际开发中,熟悉描述性统计数据的获取方法将大大提高数据处理的效率和准确性。