📜  Python Pandas-描述性统计(1)

📅  最后修改于: 2023-12-03 15:18:57.835000             🧑  作者: Mango

Python Pandas - 描述性统计

简介

Python Pandas 是一个开放源代码的数据分析库。它拥有丰富的数据结构和数据分析工具,可以轻松处理各种数据集。

描述性统计是数据分析中非常重要的一部分,它可以帮助我们更好地了解数据。Pandas 提供了各种描述性统计函数,可以轻松地对数据进行基本统计分析。

本文将介绍 Pandas 中一些常用的描述性统计函数,以及如何在 Pandas 中使用它们。

描述性统计函数

Pandas 提供了大量的描述性统计函数,其中一些常用函数包括:

  • count():计算非缺失值的数量。
  • sum():计算所有元素的总和。
  • mean():计算所有元素的平均值。
  • median():计算所有元素的中位数。
  • min():计算所有元素的最小值。
  • max():计算所有元素的最大值。
  • quantile():计算所有元素的指定分位数。
  • describe():生成有关数据的多种汇总统计信息。
示例

首先,我们需要导入 Pandas 库,并创建一个示例数据集:

import pandas as pd

data = pd.DataFrame({
    'Score': [68, 75, 78, 82, 90, 86, 94, 89, 80, 73],
    'Gender': ['male', 'female', 'male', 'female', 'male', 'male', 'female', 'male', 'female', 'male']
})

print(data)

输出:

   Score  Gender
0     68    male
1     75  female
2     78    male
3     82  female
4     90    male
5     86    male
6     94  female
7     89    male
8     80  female
9     73    male

接下来,我们可以使用 Pandas 中的描述性统计函数来分析数据:

# 计算非缺失值的数量
print(data.count())

# 计算所有元素的总和
print(data.sum())

# 计算所有元素的平均值
print(data.mean())

# 计算所有元素的中位数
print(data.median())

# 计算所有元素的最小值
print(data.min())

# 计算所有元素的最大值
print(data.max())

# 计算所有元素的指定分位数
print(data.quantile())

# 生成有关数据的多种汇总统计信息
print(data.describe())

输出:

Score     10
Gender    10
dtype: int64
Score      795
Gender    NaN
dtype: object
Score    79.5
dtype: float64
Score    80.5
dtype: float64
Score       68
Gender    female
dtype: object
Score       94
Gender    male
dtype: object
Score    82.0
Name: 0.5, dtype: float64
           Score
count  10.000000
mean   79.500000
std     8.305187
min    68.000000
25%    74.250000
50%    80.500000
75%    87.250000
max    94.000000
结论

以上就是使用 Pandas 进行描述性统计的基础内容。除了上述常用函数之外,Pandas 还提供了更多的描述性统计函数,具体可以参考官方文档。如果您想在实际数据分析中使用 Pandas 进行描述性统计,建议先对数据进行初步的探索性数据分析(Exploratory Data Analysis,简称 EDA),深入了解数据之后再选择合适的方法进行分析。