📜  python pandas - Python (1)

📅  最后修改于: 2023-12-03 15:18:57.737000             🧑  作者: Mango

Python Pandas - 介绍

Pandas 是一个 Python 的第三方库,用于数据分析和处理。它提供了一系列的数据结构和函数,使得数据处理任务更加高效和简单。

Pandas 的主要数据结构

Pandas 中含有两种主要的数据结构,分别为 Series 和 DataFrame。

Series

Series 是一种类似于一维数组的数据结构,并且它可以存储任意数据类型的值。

import pandas as pd

# 创建一个 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

输出:

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
DataFrame

DataFrame 是一种表格型的数据结构,类似于 Excel 中的数据表。它可以存储多种类型的数据,并且可以轻松地进行索引、切片、合并和删除等操作。

import pandas as pd
import numpy as np

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20130102'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "train", "test", "train"]),
    'F': 'foo'
})
print(df)

输出:

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo
Pandas 的常用操作
数据读取和保存

Pandas 可以方便地从多种数据源读取数据,例如 CSV、Excel、SQL 等格式的文件。

# 从 CSV 文件中读取数据
df = pd.read_csv("data.csv")

# 保存数据到 CSV 文件中
df.to_csv("data.csv", index=False)
数据清洗和处理

Pandas 提供了丰富的数据清洗和处理函数,例如去除重复值、填充缺失值、数据过滤等。

# 去除重复值
df.drop_duplicates(inplace=True)

# 填充缺失值
df.fillna(0, inplace=True)

# 数据过滤
df[df['age'] > 18]
数据分析和统计

Pandas 提供了多种数据分析和统计函数,例如计数、求和、均值、方差等。

# 计数
df.count()

# 求和
df.sum()

# 均值
df.mean()

# 方差
df.var()
总结

Pandas 是一个非常强大和方便的数据处理工具。通过掌握 Pandas 的基本概念和常用操作,可以极大地提高数据处理和分析的效率。