📅  最后修改于: 2023-12-03 15:25:32.563000             🧑  作者: Mango
Pandas 是一个 Python 数据分析库,提供了丰富多样的数据结构和数据分析工具,主要用于数据清洗、整理、处理、分析和可视化等操作。其中,Pandas 中的函数就是一种应用创建的函数,可以对数据进行各种处理和分析。
Pandas 中的函数具有以下主要特点:
Pandas 中的函数非常丰富,常用函数包括:
read_csv()
:读取 CSV 格式的文件数据。to_csv()
:将数据写入 CSV 格式的文件。read_excel()
:读取 Excel 格式的文件数据。to_excel()
:将数据写入 Excel 格式的文件。dropna()
:删除包含缺失值的行或列。fillna()
:填充缺失值。drop_duplicates()
:去重。replace()
:替换特定值或字符串。groupby()
:按照指定列进行分组。pivot_table()
:生成透视表。describe()
:对数据进行统计描述。min()
、mean()
、median()
、max()
、sum()
:基本的统计函数。corr()
:计算列之间的相关系数。apply()
:应用自定义函数。cut()
:将数据分成不同的区间。以下是一些使用 Pandas 中函数的示例代码:
import pandas as pd
# 读取 CSV 格式的文件
df = pd.read_csv('data.csv')
# 删除包含缺失值的行和列
df = df.dropna()
# 替换值为 NaN 的单元格
df = df.fillna(0)
# 去重
df = df.drop_duplicates()
# 对数据进行分类汇总
grouped = df.groupby('category')
result = grouped.mean()
# 生成透视表
pivot = pd.pivot_table(df, values='sales', index=['category'], columns=['quarter'], aggfunc='sum')
# 应用自定义函数
def get_avg_sales(sales):
return sales.mean()
df['avg_sales'] = df['sales'].apply(get_avg_sales)
# 将数据分成不同的区间
bins = [0, 100, 500, 1000, float('inf')]
labels = ['low', 'medium', 'high', 'very high']
df['sales_level'] = pd.cut(df['sales'], bins=bins, labels=labels)
# 将数据写入 CSV 格式的文件
df.to_csv('output.csv', index=False)
Pandas 中的函数非常丰富,可以帮助程序员快速进行数据清洗、整理、处理和分析等操作。在使用 Pandas 中的函数时,需要注意传入的数据类型和参数设置,以保证函数的正确性和有效性。