📜  在Python中使用 Pandas 计算统计数据(1)

📅  最后修改于: 2023-12-03 15:37:37.607000             🧑  作者: Mango

在Python中使用Pandas计算统计数据

Pandas简介

Pandas是Python编程语言中的一个数据分析库,主要用于数据清洗、统计和处理。它提供了两种主要的数据结构:Series和DataFrame,用于处理时间序列数据和多维数据集。Pandas除了提供各种统计计算功能外,还能方便地将数据可视化。

Pandas提供的统计计算
  • count():计算数据中的非NA值的数量。
  • sum():计算数据中的值的总和。
  • mean():计算数据的平均值。
  • median():计算数据的中位数。
  • std():计算数据的标准差。
  • var():计算数据的方差。
  • min():计算数据的最小值。
  • max():计算数据的最大值。
  • quantile():计算数据的分位数。
  • describe():对数据进行描述性统计分析。
示例程序
导入Pandas库
import pandas as pd
创建数据集
data = {
    '姓名': ['小明', '小红', '小刚', '小李', '小赵'],
    '年龄': [20, 21, 22, 23, 24],
    '班级': ['一班', '二班', '二班', '三班', '三班'],
    '成绩': [89, 93, 87, 91, 90]
}

df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])
数据计算

计算年龄的平均值

age_mean = df['年龄'].mean()

计算成绩的中位数

score_median = df['成绩'].median()

计算成绩的标准差

score_std = df['成绩'].std()

对数据进行描述性统计分析

df_desc = df.describe()
展示结果

展示年龄的平均值

print("年龄的平均值为:", age_mean)

结果为:

年龄的平均值为: 22.0

展示成绩的中位数

print("成绩的中位数为:", score_median)

结果为:

成绩的中位数为: 90.0

展示成绩的标准差

print("成绩的标准差为:", score_std)

结果为:

成绩的标准差为: 2.449489742783178

展示描述性统计分析结果

print(df_desc)

结果为:

              年龄         成绩
count   5.000000   5.000000
mean   22.000000  90.000000
std     1.581139   2.449490
min    20.000000  87.000000
25%    21.000000  89.000000
50%    22.000000  90.000000
75%    23.000000  91.000000
max    24.000000  93.000000
结论

以上就是使用Pandas计算统计数据的步骤。Pandas提供了丰富的数据计算函数,能够帮助我们快速进行数据分析和处理。此外,我们也可以使用Pandas将数据可视化,以更加直观和美观的方式呈现数据分析结果。