📅  最后修改于: 2023-12-03 15:37:37.607000             🧑  作者: Mango
Pandas是Python编程语言中的一个数据分析库,主要用于数据清洗、统计和处理。它提供了两种主要的数据结构:Series和DataFrame,用于处理时间序列数据和多维数据集。Pandas除了提供各种统计计算功能外,还能方便地将数据可视化。
import pandas as pd
data = {
'姓名': ['小明', '小红', '小刚', '小李', '小赵'],
'年龄': [20, 21, 22, 23, 24],
'班级': ['一班', '二班', '二班', '三班', '三班'],
'成绩': [89, 93, 87, 91, 90]
}
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])
age_mean = df['年龄'].mean()
score_median = df['成绩'].median()
score_std = df['成绩'].std()
df_desc = df.describe()
print("年龄的平均值为:", age_mean)
结果为:
年龄的平均值为: 22.0
print("成绩的中位数为:", score_median)
结果为:
成绩的中位数为: 90.0
print("成绩的标准差为:", score_std)
结果为:
成绩的标准差为: 2.449489742783178
print(df_desc)
结果为:
年龄 成绩
count 5.000000 5.000000
mean 22.000000 90.000000
std 1.581139 2.449490
min 20.000000 87.000000
25% 21.000000 89.000000
50% 22.000000 90.000000
75% 23.000000 91.000000
max 24.000000 93.000000
以上就是使用Pandas计算统计数据的步骤。Pandas提供了丰富的数据计算函数,能够帮助我们快速进行数据分析和处理。此外,我们也可以使用Pandas将数据可视化,以更加直观和美观的方式呈现数据分析结果。