📅  最后修改于: 2023-12-03 15:18:14.657000             🧑  作者: Mango
在数据分析和处理中,计算列或行的平均值和求和是一个常见的操作,这些操作也称为聚合操作。Pandas库提供了许多内置函数来执行这些聚合操作。本文将介绍如何使用Pandas计算均值和求和。
首先,需要下载并安装pandas包。可以在命令行中使用以下命令来安装它:
pip install pandas
接下来,为了演示均值和求和的使用,让我们首先创建一个简单的数据集。可以使用以下代码来创建:
import pandas as pd
import numpy as np
data = {
'name': ['John', 'David', 'Jack', 'Sarah', 'Jane'],
'age': [25, 23, 30, 18, 21],
'salary': [50000, 45000, 60000, 30000, 35000]
}
df = pd.DataFrame(data)
print(df)
此代码将创建一个包含5个条目的数据集,每个条目都包含一个人的姓名、年龄和薪水。
我们可以使用Pandas的内置函数sum()
来计算列或行中所有数的和。例如,让我们计算这个数据集中的薪水总和:
total_salary = df['salary'].sum()
print('Total salary:', total_salary)
输出结果如下:
Total salary: 235000
如果想计算每行的总和,则可以在操作axis
参数使用1。例如:
total = df.sum(axis=1)
print(total)
输出结果如下:
0 50025
1 45023
2 60030
3 30018
4 35021
dtype: int64
这将返回一个新的Series对象,其中包含每个行的总和。
就像求总和一样,Pandas也提供了mean()
函数来计算列或行的平均值。例如,让我们计算数据集中的平均年龄:
average_age = df['age'].mean()
print('Average age:', average_age)
输出结果如下:
Average age: 23.4
同样,如果想计算每行的平均值,则可以在操作axis
参数使用1。例如:
average = df.mean(axis=1)
print(average)
输出结果如下:
0 16675.000000
1 15007.666667
2 20010.000000
3 10006.000000
4 11673.666667
dtype: float64
这将返回一个新的Series对象,其中包含每个行的平均值。
在本文中,我们介绍了Pandas的sum()
和mean()
函数,这些函数是执行数据分析和处理中常用的聚合操作的一部分。这些函数是Pandas库的一个重要组成部分,并且可能在大多数数据处理项目中都会用到。