pandas 打开文本文件 - Python (1)

📌 相关文章

📜 pandas 打开文本文件 - Python (1)

📅 最后修改于: 2023-12-03 14:45:03.937000 🧑 作者: Mango

pandas 打开文本文件 - Python

简介

在Python中，使用pandas库可以方便地打开各种文本文件，并进行数据处理、分析等操作。pandas支持的文件类型包括CSV、Excel、JSON、HTML等多种格式。

CSV文件

CSV是一种常见的文本文件格式，以逗号为分隔符来存储数据。使用pandas库，我们可以轻松地读取并处理CSV文件。

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head()) # 打印前几行

对于读取结果为乱码，使用encoding指定编码方式。例如对于中文编码为GB18030的csv文件：

df = pd.read_csv('data.csv', encoding='GB18030')

Excel文件

除了CSV文件，pandas还支持读取和处理Excel文件。

import pandas as pd

df = pd.read_excel('data.xlsx')
print(df.head()) # 打印前几行

在Excel文件中的表名以及列名都可能包含空格等特殊字符，因此读取时需要进行指定。

df = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0)

JSON文件

JSON是一种轻量级的数据交换格式，经常用于Web应用程序之间传输数据。pandas库也支持打开JSON文件，并将数据转化为DataFrame格式。

import pandas as pd

df = pd.read_json('data.json')
print(df.head()) # 打印前几行

当读取的JSON文件中嵌套有数组时，可以使用json_normalize方法对数据进行扁平化处理。

import json
from pandas.io.json import json_normalize

with open('data.json', 'r') as f:
    data = json.load(f)

df = json_normalize(data, record_path='records', meta=['id'])
print(df.head()) # 打印前几行

HTML文件

pandas库也支持从HTML文件中提取表格数据，并将其转化为DataFrame格式。

import pandas as pd

tables = pd.read_html('data.html')
df = tables[0]
print(df.head()) # 打印前几行

总结

在Python中，使用pandas库可以方便地打开各种文本文件，并进行数据处理、分析等操作。不同类型的文件有不同的读取方式，但基本流程都是先导入pandas库，然后使用相应方法读取文件，并转化为DataFrame格式进行后续操作。