📅  最后修改于: 2023-12-03 15:18:15.012000             🧑  作者: Mango
Pandas 是一个用于数据处理和数据分析的 Python 库,它提供了一组数据结构和数据处理工具,使 Python 语言成为实现可靠、高性能、易于使用的数据操作环境的理想选择。
Series 是一种类似于一维数组的对象,由一组数据(各种 NumPy 数据类型)以及一组与之相关的数据标签(即索引)组成。可以通过索引的方式将数据与标签相对应,访问数据非常方便。
DataFrame 是 Pandas 中最重要的数据结构之一,它类似于电子表格或 SQL 中的表格,由多个行和列组成,每列可以是不同类型的数据(如数字、字符串和布尔值)。DataFrame 可以由多个 Series 组成,每个 Series 作为 DataFrame 的一列。
使用 Pandas 读取数据非常方便,可以直接使用 read_csv() 或 read_excel() 函数读取 CSV 或 Excel 文件,也可以通过 read_sql() 函数从 SQL 数据库中读取数据。
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv('data.csv')
# 读取 Excel 文件
data = pd.read_excel('data.xlsx')
# 从 SQL 数据库中读取数据
data = pd.read_sql('SELECT * FROM table', con)
Pandas 提供了常见的描述性统计方法,如 mean()、median()、std() 等,可以方便地对数据进行统计和分析。
import pandas as pd
# 计算均值
mean = data.mean()
# 计算中位数
median = data.median()
# 计算标准差
std = data.std()
Pandas 提供了类似于 NumPy 的数组切片方式,可以方便地对数据进行筛选和切片操作。
import pandas as pd
# 筛选数据
filtered_data = data[data['salary'] > 5000]
# 切片数据
sliced_data = data.loc[0:9, ['name', 'age', 'salary']]
Pandas 提供了聚合操作,可以方便地对数据进行分组和聚合统计。
import pandas as pd
# 按部门分组,计算平均工资
grouped_data = data.groupby('department')['salary'].mean()
在数据处理和数据分析领域,Pandas 是 Python 语言中最重要的工具之一,它提供了丰富的数据处理和数据分析功能,可以让程序员更加方便地处理和分析数据。无论是数据读取、描述性统计、数据筛选和切片,还是数据聚合,Pandas 都提供了方便的接口和工具。