📅  最后修改于: 2023-12-03 15:03:29.522000             🧑  作者: Mango
Pandas 是一个基于 Numpy 构建的数据分析库,该库被广泛应用于数据挖掘、数据分析以及数据可视化领域。本文将介绍 Pandas 的常用功能,让程序员快速掌握 Pandas,并提供 Pandas 备忘单 pdf,方便快速回顾。
pip install pandas
import pandas as pd
# 从列表创建
lst = [1,2,3,4]
df = pd.DataFrame(lst)
# 从字典创建
data = {'name': ['John', 'Bob', 'Alice'], 'age': [25, 30, 35]}
df = pd.DataFrame(data)
# 从CSV文件创建
df = pd.read_csv('data.csv')
# 从Excel文件创建
df = pd.read_excel('data.xlsx')
# 预览前n行
df.head(n)
# 预览后n行
df.tail(n)
# 随机预览n行
df.sample(n)
# 查找空值
df.isnull()
# 填充空值
df.fillna(value)
# 删除空值
df.dropna()
# 重命名列名
df.rename(columns = {'old_name':'new_name'})
# 列数据类型转换
df['column_name'].astype('new_type')
# 列选择
df['column_name']
# 行选择
df.loc[row]
# 按条件选择行
df[df['column_name'] > value]
# 多个条件选择行
df[(df['column_name1'] > value1) & (df['column_name2'] < value2)]
# 数据切片
df[start: end]
# 列聚合
df.groupby('column_name').mean()
# 列的值计数
df['column_name'].value_counts()
# 列数据排序
df.sort_values('column_name')
# 列数据统计描述
df.describe()
# 列数据映射
df['column_name'].map(dict)
# 列数据应用自定义函数
df['column_name'].apply(func)
# 列数据替换
df['column_name'].replace(old_value, new_value)
# 导出为CSV文件
df.to_csv('data.csv', index = False)
# 导出为Excel文件
df.to_excel('data.xlsx', index = False)
# 备忘单 PDF 下载
[点击下载](https://www.baidu.com)
以上是 Pandas 的常用功能,如需更多了解请参考 Pandas 官方文档。