📅  最后修改于: 2023-12-03 14:46:31.232000             🧑  作者: Mango
Python 熊猫系列是一套数据处理与分析的开源库,包括 numpy、pandas、matplotlib 等。其中 pandas 是熊猫系列库最常用的库之一,提供丰富的数据结构以及数据操作方法,方便用户进行数据清洗、处理与分析。
使用 pip
命令安装:
pip install pandas
Series 是一个一维的数组,类似于 Python 的列表,不同的是 Series 可以储存不同类型的数据(例如整数、浮点数、字符串等)。
import pandas as pd
s = pd.Series([1, 3, 5, np.nan, 6, 8])
DataFrame 是一个二维的表格型数据结构,类似于 Excel 表格。在 Pandas 中,我们将 DataFrame 看作是由多个 Series 组成的字典。
import pandas as pd
data = {'name': ['Alice', 'Bob', 'Charlie', 'Dave'],
'age': [24, 42, 18, 68],
'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data)
使用 dropna()
方法删除包含缺失值的行或列。
df.dropna() # 删除包含有缺失值的行
df.dropna(axis=1) # 删除包含有缺失值的列
使用 fillna()
方法将缺失值填充为指定的值。
df.fillna(0) # 将缺失值填充为 0
df.fillna(method='ffill') # 向前填充缺失值
df.fillna(method='bfill') # 向后填充缺失值
使用 astype()
方法将指定列的数据类型转换为其他类型。
df['age'].astype('float') # 将 age 列转换为浮点数类型
df['age'].astype('str') # 将 age 列转换为字符串类型
使用 groupby()
方法进行数据分组,然后使用相应的聚合函数进行汇总。
df.groupby(['gender'])['age'].mean() # 按照 gender 分组并计算 age 列的均值
使用 apply()
方法对整个 DataFrame 进行批量处理。
def apply_func(row):
return row['age'] * 2
df['age_times_2'] = df.apply(lambda x: apply_func(x), axis=1) # 对 age 列进行乘以 2 的运算,并将结果赋值给新的一列 age_times_2
使用 matplotlib 库可以对数据进行可视化。
import matplotlib.pyplot as plt
df.plot(kind='bar', x='name', y='age') # 绘制 Bar 图