📅  最后修改于: 2023-12-03 15:06:56.471000             🧑  作者: Mango
在 Pandas 中,可以通过指定一个或多个列来对 DataFrame 进行分组。这样做的好处是可以根据特定的列的值来聚合数据,例如对某一列进行求和、计数、平均值、标准差等操作。
以下是使用指定的列对 DataFrame 进行分组的步骤:
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 创建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emma'],
'Gender': ['Female', 'Male', 'Male', 'Male', 'Female'],
'Age': [25, 20, 30, 35, 28],
'Department': ['Sales', 'Marketing', 'Sales', 'IT', 'Marketing']}
df = pd.DataFrame(data)
groupby
方法,指定需要分组的列。# 按 'Department' 列进行分组
grouped = df.groupby('Department')
# 求 'Age' 列的平均值
average_age = grouped['Age'].mean()
print(average_age)
输出:
Department
IT 35.0
Marketing 24.0
Sales 27.5
Name: Age, dtype: float64
以上就是使用指定的列对 DataFrame 进行分组的全部过程。值得注意的是,groupby
方法可以指定多个列来进行分组,例如:
# 按 'Department' 和 'Gender' 两列进行分组
grouped = df.groupby(['Department', 'Gender'])