📜  使用指定的列对 DataFrame 进行分组 - Python (1)

📅  最后修改于: 2023-12-03 15:06:56.471000             🧑  作者: Mango

使用指定的列对 DataFrame 进行分组 - Python

在 Pandas 中,可以通过指定一个或多个列来对 DataFrame 进行分组。这样做的好处是可以根据特定的列的值来聚合数据,例如对某一列进行求和、计数、平均值、标准差等操作。

以下是使用指定的列对 DataFrame 进行分组的步骤:

  1. 使用 Pandas 读取或创建一个 DataFrame。
import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 创建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emma'],
        'Gender': ['Female', 'Male', 'Male', 'Male', 'Female'],
        'Age': [25, 20, 30, 35, 28],
        'Department': ['Sales', 'Marketing', 'Sales', 'IT', 'Marketing']}
df = pd.DataFrame(data)
  1. 使用 groupby 方法,指定需要分组的列。
# 按 'Department' 列进行分组
grouped = df.groupby('Department')
  1. 对分组后的数据进行聚合操作。
# 求 'Age' 列的平均值
average_age = grouped['Age'].mean()
  1. 查看聚合后的结果。
print(average_age)

输出:

Department
IT           35.0
Marketing    24.0
Sales        27.5
Name: Age, dtype: float64

以上就是使用指定的列对 DataFrame 进行分组的全部过程。值得注意的是,groupby 方法可以指定多个列来进行分组,例如:

# 按 'Department' 和 'Gender' 两列进行分组
grouped = df.groupby(['Department', 'Gender'])