📅  最后修改于: 2023-12-03 15:03:29.572000             🧑  作者: Mango
Pandas 是 Python 中用于数据处理和数据分析的重要库,提供了快速、灵活和富有表现力的数据结构,使数据处理工作更加高效和简单。
Pandas 的核心数据结构是 DataFrame 和 Series。DataFrame 是由 Series 组成的二维表格,而 Series 则是一维数组。
可以通过 pip 安装 Pandas:
pip install pandas
在使用 Pandas 之前,首先要导入 pandas 库:
import pandas as pd
可以通过多种方式创建 DataFrame。以下是一个使用字典创建 DataFrame 的示例:
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 30, 35, 40],
'city': ['Beijing', 'Shanghai', 'New York', 'Tokyo']}
df = pd.DataFrame(data)
print(df)
输出:
name age city
0 Alice 25 Beijing
1 Bob 30 Shanghai
2 Charlie 35 New York
3 David 40 Tokyo
可以使用 loc 和 iloc 来选取 DataFrame 中的数据。loc 通过行和列的标签进行选取,而 iloc 通过位置进行选取。
# 选取第一行
print(df.loc[0])
# 选取 name 和 city 列的数据
print(df.loc[:, ['name', 'city']])
# 选取前两行和前两列的数据
print(df.iloc[:2, :2])
在数据处理中,常常需要对数据进行清洗和转换。Pandas 提供了大量的方法来进行数据清洗。
# 筛选出 age 大于等于 30 的数据
print(df[df['age'] >= 30])
# 将 city 列中的 New York 替换为 Beijing
df['city'] = df['city'].replace('New York', 'Beijing')
print(df)
# 删除 age 列
del df['age']
print(df)
Pandas 提供了丰富的方法来进行数据统计,包括汇总统计、分组统计、透视表和数据聚合等。
# 对 age 列进行汇总统计
print(df['age'].describe())
# 按 city 列进行分组并统计每组的平均年龄
print(df.groupby('city')['age'].mean())
# 创建透视表并计算每个城市的人数和平均年龄
print(pd.pivot_table(df, values='age', index='city', columns='name', aggfunc=np.sum))
Pandas 是一个功能强大的 Python 库,提供了丰富的数据处理和数据分析功能。通过 Pandas,我们可以使用简洁的代码来处理和分析大量的数据,从而提高工作效率和效果。