📅  最后修改于: 2023-12-03 14:45:03.937000             🧑  作者: Mango
在Python中,使用pandas库可以方便地打开各种文本文件,并进行数据处理、分析等操作。pandas支持的文件类型包括CSV、Excel、JSON、HTML等多种格式。
CSV是一种常见的文本文件格式,以逗号为分隔符来存储数据。使用pandas库,我们可以轻松地读取并处理CSV文件。
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head()) # 打印前几行
对于读取结果为乱码,使用encoding
指定编码方式。例如对于中文编码为GB18030的csv文件:
df = pd.read_csv('data.csv', encoding='GB18030')
除了CSV文件,pandas还支持读取和处理Excel文件。
import pandas as pd
df = pd.read_excel('data.xlsx')
print(df.head()) # 打印前几行
在Excel文件中的表名以及列名都可能包含空格等特殊字符,因此读取时需要进行指定。
df = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0)
JSON是一种轻量级的数据交换格式,经常用于Web应用程序之间传输数据。pandas库也支持打开JSON文件,并将数据转化为DataFrame格式。
import pandas as pd
df = pd.read_json('data.json')
print(df.head()) # 打印前几行
当读取的JSON文件中嵌套有数组时,可以使用json_normalize
方法对数据进行扁平化处理。
import json
from pandas.io.json import json_normalize
with open('data.json', 'r') as f:
data = json.load(f)
df = json_normalize(data, record_path='records', meta=['id'])
print(df.head()) # 打印前几行
pandas库也支持从HTML文件中提取表格数据,并将其转化为DataFrame格式。
import pandas as pd
tables = pd.read_html('data.html')
df = tables[0]
print(df.head()) # 打印前几行
在Python中,使用pandas库可以方便地打开各种文本文件,并进行数据处理、分析等操作。不同类型的文件有不同的读取方式,但基本流程都是先导入pandas库,然后使用相应方法读取文件,并转化为DataFrame格式进行后续操作。