📅  最后修改于: 2023-12-03 15:26:54.304000             🧑  作者: Mango
Python 中的 Pandas 库提供了几种不同的数据结构来处理数据,最常见的是列表和数据框。列表是一种简单的数据结构,用于存储值的集合。数据框则是一种类似于 Excel 表格的数据结构,用于存储多个列的值。
列表是 Python 中最基本的数据结构之一,用于存储一组相关的值。以下是创建和操作列表的示例代码:
# 创建列表
my_list = [1, 2, 3, 4, 5]
# 访问列表元素
print(my_list[0]) # 1
# 更新列表元素
my_list[0] = 0
# 迭代列表元素
for x in my_list:
print(x)
# 列表长度
print(len(my_list))
# 在列表末尾添加元素
my_list.append(6)
# 在指定位置插入元素
my_list.insert(0, -1)
# 移除指定元素
my_list.remove(3)
# 列表元素排序
my_list.sort()
列表适用于存储一维数据,但对于多维数据,需要使用嵌套列表或者其他的数据结构。
数据框是 Pandas 中用于存储二维数据的数据结构。每个列用一个列表来存储数据。以下是创建和操作数据框的示例代码:
import pandas as pd
# 创建数据框
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella'],
'age': [25, 30, 20, 35, 28],
'gender': ['F', 'M', 'M', 'M', 'F'],
'score': [90, 85, 75, 80, 95]
})
# 列名和索引
print(df.columns) # Index(['name', 'age', 'gender', 'score'], dtype='object')
print(df.index) # RangeIndex(start=0, stop=5, step=1)
# 访问列和行
print(df['name']) # Series(['Alice', 'Bob', 'Charlie', 'David', 'Ella'])
print(df.loc[0]) # Series(['Alice', 25, 'F', 90])
print(df.loc[0, 'name']) # 'Alice'
print(df.iloc[0, 0]) # 'Alice'
# 更新数据
df.at[0, 'score'] = 95
df.iat[1, 2] = 'F'
# 计算列和行的统计量
print(df.mean()) # 平均值
print(df.std()) # 标准差
# 筛选数据
print(df[df['score'] >= 80]) # 根据条件筛选
print(df[df['name'].str.startswith('A')]) # 根据字符串筛选
数据框支持对列和行进行灵活的操作,例如添加、删除、筛选、统计、合并等。
列表和数据框是两种不同的数据结构,适用于不同的场景。一般而言,如果需要处理单个变量的数据,可以使用列表。如果需要处理多个变量之间的关系,可以使用数据框。
与列表相比,数据框具有以下优点:
与数据框相比,列表具有以下优点:
综上所述,列表和数据框各有优缺点,需要根据具体的需求来选择适合的数据结构。对于多维数据和数据分析,数据框更为适用。