📅  最后修改于: 2023-12-03 15:18:15.079000             🧑  作者: Mango
Pandas 是 Python 中使用最广泛的数据处理库之一,它提供了一个高性能、易于使用的数据框(DataFrame)结构,可以在数据处理、数据分析、机器学习等领域中发挥重要的作用。
创建一个数据框非常简单,可以使用列表、字典等方式来创建。我们先来看一下使用列表的方式:
import pandas as pd
data = [['Alice', 25],
['Bob', 30],
['Charlie', 35]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
输出结果:
Name Age
0 Alice 25
1 Bob 30
2 Charlie 35
我们也可以使用字典来创建数据框:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
print(df)
输出结果:
Name Age
0 Alice 25
1 Bob 30
2 Charlie 35
Pandas 也提供了多种方式来读取和写入数据框,比如 CSV、Excel、SQL 数据库等。这里以 CSV 文件为例:
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 写入 CSV 文件
df.to_csv('data.csv', index=False)
数据框可以进行多种操作,比如筛选、排序、聚合等。这里给出几个例子:
筛选出年龄大于 30 岁的人员:
df[df['Age'] > 30]
按照年龄从小到大排序:
df.sort_values(by='Age')
按照年龄分组并计算平均值:
df.groupby(['Age']).mean()
以上只是数据框操作的一部分,Pandas 的使用非常广泛,可以满足数据处理、数据分析、机器学习等多种需求。