📜  Python|熊猫 dataframe.mean()(1)

📅  最后修改于: 2023-12-03 15:04:26.735000             🧑  作者: Mango

Python | 熊猫 dataframe.mean()

简介

在使用熊猫(pandas)进行数据处理时,我们经常需要计算数据集中一列或整个数据集的平均数。pandas库中的dataframe.mean()函数可以计算指定数据的平均值。

语法
DataFrame.mean(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)
参数说明
  • axis:计算平均值的轴。默认为0,表示计算列的平均值。如果设置为1,则计算行的平均值。
  • skipna:布尔值。表示是否忽略NaN值。默认为True,表示忽略。如果设置为False,则包含NaN在内的所有值都被视为无效值,计算出的平均值也为NaN。
  • level:如果axis是多级索引的话,可以使用level参数指定计算平均值的级别。
  • numeric_only:默认为None,表示计算所有数据类型的平均值。如果设置为True,则只计算数值类型的平均值。
  • kwargs:额外的关键字参数。
返回值

函数返回一个包含计算出的平均值的Series对象。

示例

下面是一个示例数据集:

import pandas as pd

data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'], 
        'Age': [28, 34, 29, 42], 
        'Salary':[3000, 5000, 4500, 8000]}
df = pd.DataFrame(data)

我们可以使用dataframe.mean()函数计算整个数据集和每一列的平均值:

# 计算整个数据集的平均值
print(df.mean())

# 输出
# Age        33.250
# Salary    5125.000
# dtype: float64

# 计算每一列的平均值
print(df.mean(axis=0))

# 输出
# Age        33.250
# Salary    5125.000
# dtype: float64

我们也可以设置axis参数为1,计算每一行的平均值:

# 计算每一行的平均值
print(df.mean(axis=1))

# 输出
# 0    1509.333333
# 1    2511.333333
# 2    2338.000000
# 3    4170.000000
# dtype: float64

若数据集中包括NaN值,则忽略它们:

data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'], 
        'Age': [28, None, 29, 42], 
        'Salary':[3000, 5000, 4500, 8000]}
df = pd.DataFrame(data)

# 计算每一列的平均值
print(df.mean())

# 输出
# Age       33.0
# Salary    5125.0
# dtype: float64
结论

使用dataframe.mean()函数可以方便地计算数据集或一列的平均值。在计算平均数时,我们可以通过设置参数来适应我们的需要。