📜  应用创建的函数 pandas - Python (1)

📅  最后修改于: 2023-12-03 15:25:32.563000             🧑  作者: Mango

应用创建的函数 pandas - Python

简介

Pandas 是一个 Python 数据分析库,提供了丰富多样的数据结构和数据分析工具,主要用于数据清洗、整理、处理、分析和可视化等操作。其中,Pandas 中的函数就是一种应用创建的函数,可以对数据进行各种处理和分析。

主要特点

Pandas 中的函数具有以下主要特点:

  • 灵活性:Pandas 中的函数支持多种数据类型,可以根据数据类型进行数据处理操作。
  • 易用性:Pandas 中的函数具有简洁明了的调用方式和丰富的文档,方便用户快速上手。
  • 高效性:Pandas 中的函数经过优化,具有高效的运算速度,适合处理大量数据。
常用函数

Pandas 中的函数非常丰富,常用函数包括:

读取和写入数据
  • read_csv():读取 CSV 格式的文件数据。
  • to_csv():将数据写入 CSV 格式的文件。
  • read_excel():读取 Excel 格式的文件数据。
  • to_excel():将数据写入 Excel 格式的文件。
数据清洗和整理
  • dropna():删除包含缺失值的行或列。
  • fillna():填充缺失值。
  • drop_duplicates():去重。
  • replace():替换特定值或字符串。
  • groupby():按照指定列进行分组。
  • pivot_table():生成透视表。
数据处理和分析
  • describe():对数据进行统计描述。
  • min()mean()median()max()sum():基本的统计函数。
  • corr():计算列之间的相关系数。
  • apply():应用自定义函数。
  • cut():将数据分成不同的区间。
示例代码

以下是一些使用 Pandas 中函数的示例代码:

import pandas as pd

# 读取 CSV 格式的文件
df = pd.read_csv('data.csv')

# 删除包含缺失值的行和列
df = df.dropna()

# 替换值为 NaN 的单元格
df = df.fillna(0)

# 去重
df = df.drop_duplicates()

# 对数据进行分类汇总
grouped = df.groupby('category')
result = grouped.mean()

# 生成透视表
pivot = pd.pivot_table(df, values='sales', index=['category'], columns=['quarter'], aggfunc='sum')

# 应用自定义函数
def get_avg_sales(sales):
    return sales.mean()

df['avg_sales'] = df['sales'].apply(get_avg_sales)

# 将数据分成不同的区间
bins = [0, 100, 500, 1000, float('inf')]
labels = ['low', 'medium', 'high', 'very high']
df['sales_level'] = pd.cut(df['sales'], bins=bins, labels=labels)

# 将数据写入 CSV 格式的文件
df.to_csv('output.csv', index=False)
总结

Pandas 中的函数非常丰富,可以帮助程序员快速进行数据清洗、整理、处理和分析等操作。在使用 Pandas 中的函数时,需要注意传入的数据类型和参数设置,以保证函数的正确性和有效性。