📅  最后修改于: 2023-12-03 15:39:48.280000             🧑  作者: Mango
Pandas 是 Python 中一个强大的数据分析工具包。其中,数据框是 Pandas 的一种常用数据结构。有时候需要根据数据框的列索引拆分数据框,这是一个常见的操作。
假设有一个数据框,其列索引为 ['name','gender','age','location','occupation'],其中有几万条记录。现在需要将这个数据框按照“location” 列的取值分成若干个数据框,并保存到多个文件中。
Pandas 具有强大的数据处理和分析能力。可以通过 groupby 方法快速实现按照指定列索引进行数据拆分的操作。下面是一个演示例子,代码如下:
import pandas as pd
# 构造一个示例数据框
data = {
'name': ['Jack', 'Lucy', 'Tom', 'Mary', 'Jason'],
'gender': ['male', 'female', 'male', 'female', 'male'],
'age': [22, 18, 29, 19, 36],
'location': ['Shanghai', 'Beijing', 'Shanghai', 'Shenzhen', 'Beijing'],
'occupation': ['teacher', 'engineer', 'doctor', 'programmer', 'manager']
}
df = pd.DataFrame(data)
# 按照 location 列拆分为多个数据框
grouped = df.groupby('location')
for name, group in grouped:
filename = name + '.csv' # 按照地区名保存到不同的文件中
group.to_csv(filename, index=False, header=True)
代码说明:
df
。groupby
方法,按照列索引 'location'
对数据框进行拆分,返回一个 DataFrameGroupBy
对象。本篇介绍了如何使用 Pandas 按照指定列索引对数据框进行拆分。对于大规模数据处理和数据分析场景来说,Pandas 是一款非常强大的工具包。如果你需要频繁地处理数据框,不妨试试 Pandas,相信你会爱上它的简洁易用。