📜  pandas 子栏目 - Python (1)

📅  最后修改于: 2023-12-03 15:03:29.572000             🧑  作者: Mango

Pandas 子栏目 - Python

简介

Pandas 是 Python 中用于数据处理和数据分析的重要库,提供了快速、灵活和富有表现力的数据结构,使数据处理工作更加高效和简单。

Pandas 的核心数据结构是 DataFrame 和 Series。DataFrame 是由 Series 组成的二维表格,而 Series 则是一维数组。

安装

可以通过 pip 安装 Pandas:

pip install pandas
使用
导入

在使用 Pandas 之前,首先要导入 pandas 库:

import pandas as pd
创建 DataFrame

可以通过多种方式创建 DataFrame。以下是一个使用字典创建 DataFrame 的示例:

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'city': ['Beijing', 'Shanghai', 'New York', 'Tokyo']}
df = pd.DataFrame(data)
print(df)

输出:

      name  age      city
0    Alice   25   Beijing
1      Bob   30  Shanghai
2  Charlie   35  New York
3    David   40     Tokyo
选取数据

可以使用 loc 和 iloc 来选取 DataFrame 中的数据。loc 通过行和列的标签进行选取,而 iloc 通过位置进行选取。

# 选取第一行
print(df.loc[0])

# 选取 name 和 city 列的数据
print(df.loc[:, ['name', 'city']])

# 选取前两行和前两列的数据
print(df.iloc[:2, :2])
数据清洗

在数据处理中,常常需要对数据进行清洗和转换。Pandas 提供了大量的方法来进行数据清洗。

# 筛选出 age 大于等于 30 的数据
print(df[df['age'] >= 30])

# 将 city 列中的 New York 替换为 Beijing
df['city'] = df['city'].replace('New York', 'Beijing')
print(df)

# 删除 age 列
del df['age']
print(df)
数据统计

Pandas 提供了丰富的方法来进行数据统计,包括汇总统计、分组统计、透视表和数据聚合等。

# 对 age 列进行汇总统计
print(df['age'].describe())

# 按 city 列进行分组并统计每组的平均年龄
print(df.groupby('city')['age'].mean())

# 创建透视表并计算每个城市的人数和平均年龄
print(pd.pivot_table(df, values='age', index='city', columns='name', aggfunc=np.sum))
结论

Pandas 是一个功能强大的 Python 库,提供了丰富的数据处理和数据分析功能。通过 Pandas,我们可以使用简洁的代码来处理和分析大量的数据,从而提高工作效率和效果。