📜  pandas 打开文本文件 - Python (1)

📅  最后修改于: 2023-12-03 14:45:03.937000             🧑  作者: Mango

pandas 打开文本文件 - Python

简介

在Python中,使用pandas库可以方便地打开各种文本文件,并进行数据处理、分析等操作。pandas支持的文件类型包括CSV、Excel、JSON、HTML等多种格式。

CSV文件

CSV是一种常见的文本文件格式,以逗号为分隔符来存储数据。使用pandas库,我们可以轻松地读取并处理CSV文件。

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head()) # 打印前几行

对于读取结果为乱码,使用encoding指定编码方式。例如对于中文编码为GB18030的csv文件:

df = pd.read_csv('data.csv', encoding='GB18030')
Excel文件

除了CSV文件,pandas还支持读取和处理Excel文件。

import pandas as pd

df = pd.read_excel('data.xlsx')
print(df.head()) # 打印前几行

在Excel文件中的表名以及列名都可能包含空格等特殊字符,因此读取时需要进行指定。

df = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0)
JSON文件

JSON是一种轻量级的数据交换格式,经常用于Web应用程序之间传输数据。pandas库也支持打开JSON文件,并将数据转化为DataFrame格式。

import pandas as pd

df = pd.read_json('data.json')
print(df.head()) # 打印前几行

当读取的JSON文件中嵌套有数组时,可以使用json_normalize方法对数据进行扁平化处理。

import json
from pandas.io.json import json_normalize

with open('data.json', 'r') as f:
    data = json.load(f)

df = json_normalize(data, record_path='records', meta=['id'])
print(df.head()) # 打印前几行
HTML文件

pandas库也支持从HTML文件中提取表格数据,并将其转化为DataFrame格式。

import pandas as pd

tables = pd.read_html('data.html')
df = tables[0]
print(df.head()) # 打印前几行
总结

在Python中,使用pandas库可以方便地打开各种文本文件,并进行数据处理、分析等操作。不同类型的文件有不同的读取方式,但基本流程都是先导入pandas库,然后使用相应方法读取文件,并转化为DataFrame格式进行后续操作。