📅  最后修改于: 2023-12-03 15:04:26.735000             🧑  作者: Mango
在使用熊猫(pandas)进行数据处理时,我们经常需要计算数据集中一列或整个数据集的平均数。pandas库中的dataframe.mean()
函数可以计算指定数据的平均值。
DataFrame.mean(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)
函数返回一个包含计算出的平均值的Series对象。
下面是一个示例数据集:
import pandas as pd
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'Age': [28, 34, 29, 42],
'Salary':[3000, 5000, 4500, 8000]}
df = pd.DataFrame(data)
我们可以使用dataframe.mean()
函数计算整个数据集和每一列的平均值:
# 计算整个数据集的平均值
print(df.mean())
# 输出
# Age 33.250
# Salary 5125.000
# dtype: float64
# 计算每一列的平均值
print(df.mean(axis=0))
# 输出
# Age 33.250
# Salary 5125.000
# dtype: float64
我们也可以设置axis
参数为1,计算每一行的平均值:
# 计算每一行的平均值
print(df.mean(axis=1))
# 输出
# 0 1509.333333
# 1 2511.333333
# 2 2338.000000
# 3 4170.000000
# dtype: float64
若数据集中包括NaN值,则忽略它们:
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],
'Age': [28, None, 29, 42],
'Salary':[3000, 5000, 4500, 8000]}
df = pd.DataFrame(data)
# 计算每一列的平均值
print(df.mean())
# 输出
# Age 33.0
# Salary 5125.0
# dtype: float64
使用dataframe.mean()
函数可以方便地计算数据集或一列的平均值。在计算平均数时,我们可以通过设置参数来适应我们的需要。