📜  Pandas 数据处理(1)

📅  最后修改于: 2023-12-03 15:18:15.012000             🧑  作者: Mango

Pandas 数据处理

Pandas 是一个用于数据处理和数据分析的 Python 库,它提供了一组数据结构和数据处理工具,使 Python 语言成为实现可靠、高性能、易于使用的数据操作环境的理想选择。

Pandas 的主要数据结构
Series

Series 是一种类似于一维数组的对象,由一组数据(各种 NumPy 数据类型)以及一组与之相关的数据标签(即索引)组成。可以通过索引的方式将数据与标签相对应,访问数据非常方便。

DataFrame

DataFrame 是 Pandas 中最重要的数据结构之一,它类似于电子表格或 SQL 中的表格,由多个行和列组成,每列可以是不同类型的数据(如数字、字符串和布尔值)。DataFrame 可以由多个 Series 组成,每个 Series 作为 DataFrame 的一列。

Pandas 常用数据处理操作
读取数据

使用 Pandas 读取数据非常方便,可以直接使用 read_csv() 或 read_excel() 函数读取 CSV 或 Excel 文件,也可以通过 read_sql() 函数从 SQL 数据库中读取数据。

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('data.csv')

# 读取 Excel 文件
data = pd.read_excel('data.xlsx')

# 从 SQL 数据库中读取数据
data = pd.read_sql('SELECT * FROM table', con)
描述性统计

Pandas 提供了常见的描述性统计方法,如 mean()、median()、std() 等,可以方便地对数据进行统计和分析。

import pandas as pd

# 计算均值
mean = data.mean()

# 计算中位数
median = data.median()

# 计算标准差
std = data.std()
数据筛选和切片

Pandas 提供了类似于 NumPy 的数组切片方式,可以方便地对数据进行筛选和切片操作。

import pandas as pd

# 筛选数据
filtered_data = data[data['salary'] > 5000]

# 切片数据
sliced_data = data.loc[0:9, ['name', 'age', 'salary']]
数据聚合

Pandas 提供了聚合操作,可以方便地对数据进行分组和聚合统计。

import pandas as pd

# 按部门分组,计算平均工资
grouped_data = data.groupby('department')['salary'].mean()
总结

在数据处理和数据分析领域,Pandas 是 Python 语言中最重要的工具之一,它提供了丰富的数据处理和数据分析功能,可以让程序员更加方便地处理和分析数据。无论是数据读取、描述性统计、数据筛选和切片,还是数据聚合,Pandas 都提供了方便的接口和工具。