📜  使用 pandas 加载 csv 文件 - Python (1)

📅  最后修改于: 2023-12-03 15:22:15.344000             🧑  作者: Mango

使用 pandas 加载 csv 文件 - Python

Pandas 是 Python 语言中一个流行的数据处理库,它提供了高效、快速的数据操作以及数据分析的能力。在 Pandas 中,可以轻松地处理 CSV 文件,同时支持处理 Excel、SQL 数据库、HTML 网页以及 JSON 等数据源。

安装 Pandas

在开始使用 Pandas 之前,需要先安装这个库。可以使用 pip 包管理器来安装:

!pip install pandas
加载数据

将 CSV 文件加载到 pandas 中,可以使用 pandas 中的 read_csv() 函数,该函数可以从本地文件、URL、gzip 或 bzip2 压缩文件中读取 CSV 文件。函数的参数包括文件路径、分隔符、列名等。以下是一些基本使用方法:

import pandas as pd

# 读取本地 CSV 文件
df = pd.read_csv('file.csv')
print(df.head())

# 读取 URL 中的 CSV 文件
url = 'https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex1.csv'
df = pd.read_csv(url)
print(df.head())

# 读取含有自定义分隔符的 CSV 文件
df = pd.read_csv('file.csv', sep=';')
print(df.head())

# 读取未包含列名称的 CSV 文件
df = pd.read_csv('file.csv', header=None)
print(df.head())

# 读取含有重复值的 CSV 文件
df = pd.read_csv('file.csv', skip_duplicates=True)
print(df.head())
数据清理

使用 pandas 还可以对数据进行清理、处理。以下是一些基本使用方法:

import pandas as pd

# 读取本地 CSV 文件
df = pd.read_csv('file.csv')

# 删除含有缺失值的行
df = df.dropna()

# 替换含有缺失值的数据
df = df.fillna(0)

# 将字符串转换为日期格式
df['date'] = pd.to_datetime(df['date'])

# 删除重复的行
df = df.drop_duplicates()

在处理大型数据文件时,Pandas 也提供了一些强大的功能,例如分块读取、迭代器、并行化处理等。

结论

Pandas 是一个功能强大的数据处理库,可以轻松地加载、清理和处理各种类型的数据文件,适用于从简单的数据清理到复杂的数据分析和建模的各种场景。