📜  Python|熊猫系列.sem()(1)

📅  最后修改于: 2023-12-03 14:46:31.232000             🧑  作者: Mango

Python 熊猫系列库

简介

Python 熊猫系列是一套数据处理与分析的开源库,包括 numpy、pandas、matplotlib 等。其中 pandas 是熊猫系列库最常用的库之一,提供丰富的数据结构以及数据操作方法,方便用户进行数据清洗、处理与分析。

安装

使用 pip 命令安装:

pip install pandas
常用数据结构
Series

Series 是一个一维的数组,类似于 Python 的列表,不同的是 Series 可以储存不同类型的数据(例如整数、浮点数、字符串等)。

import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8])
DataFrame

DataFrame 是一个二维的表格型数据结构,类似于 Excel 表格。在 Pandas 中,我们将 DataFrame 看作是由多个 Series 组成的字典。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'Dave'],
        'age': [24, 42, 18, 68],
        'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data)
数据清洗
删除缺失值

使用 dropna() 方法删除包含缺失值的行或列。

df.dropna() # 删除包含有缺失值的行
df.dropna(axis=1) # 删除包含有缺失值的列
填充缺失值

使用 fillna() 方法将缺失值填充为指定的值。

df.fillna(0) # 将缺失值填充为 0
df.fillna(method='ffill') # 向前填充缺失值
df.fillna(method='bfill') # 向后填充缺失值
数据类型转换

使用 astype() 方法将指定列的数据类型转换为其他类型。

df['age'].astype('float') # 将 age 列转换为浮点数类型
df['age'].astype('str') # 将 age 列转换为字符串类型
数据汇总
分组汇总

使用 groupby() 方法进行数据分组,然后使用相应的聚合函数进行汇总。

df.groupby(['gender'])['age'].mean() # 按照 gender 分组并计算 age 列的均值
批量处理

使用 apply() 方法对整个 DataFrame 进行批量处理。

def apply_func(row):
    return row['age'] * 2

df['age_times_2'] = df.apply(lambda x: apply_func(x), axis=1) # 对 age 列进行乘以 2 的运算,并将结果赋值给新的一列 age_times_2
数据可视化

使用 matplotlib 库可以对数据进行可视化。

import matplotlib.pyplot as plt

df.plot(kind='bar', x='name', y='age') # 绘制 Bar 图