📅  最后修改于: 2023-12-03 15:08:45.799000             🧑  作者: Mango
在日常的数据分析及数据处理中,Excel 文件是一种常见的文件类型。Python 也提供了多种库来读取 Excel 文件,本文将介绍如何使用 Python 中的 pandas 和 openpyxl 库来读取 Excel 文件。
pandas 是数据分析及处理中常用的库,内置的 read_excel 方法可以方便地读取 Excel 文件。下面是一个简单的例子:
import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('example.xlsx')
# 查看前5行数据
print(df.head())
以上代码中,import
引入了 pandas 库,pd.read_excel
方法读取了名为 example.xlsx
的 Excel 文件,并将数据存储到变量 df
中。最后,使用 print(df.head())
查看了文件中的前5行数据。
以下是 read_excel
方法中常用的参数:
io
:Excel 文件的路径或文件对象。必须提供。sheet_name
:要读取的工作表名称或索引。默认为 0,即第一个工作表。header
:用作列名的行号。默认为 0,即第一行。index_col
:用作行索引的列编号或列名。默认为 None。usecols
:要读取的列,如 "A:E" 或 [0, 2, 3]。默认为 None,即读取所有列。dtype
:将列的数据类型指定为字典。默认为 None。skiprows
:要跳过的行数(从文件开头算起)。默认为 None。nrows
:要读取的行数。默认为 None,即读取所有行。openpyxl 是一个专门用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件的库。下面是一个读取 Excel 文件的例子:
import openpyxl
# 读取 Excel 文件
wb = openpyxl.load_workbook('example.xlsx')
ws = wb.active
# 遍历行并输出结果
for row in ws.iter_rows(min_row=1, max_col=3, max_row=5):
for cell in row:
print(cell.value)
以上代码中,import
引入了 openpyxl 库,openpyxl.load_workbook
方法读取了名为 example.xlsx
的 Excel 文件,并将工作表存储到变量 ws
中。使用 ws.iter_rows
方法遍历了前5行前3列的单元格,并输出其值。
以下是 load_workbook
方法中常用的参数:
filename
:Excel 文件的路径或文件对象。必须提供。read_only
:指示文件是否只读。默认为 False。data_only
:指示单元格是否显示为其值而不是其公式。默认为 False。keep_vba
:指示是否保留 Excel 文件中的 VBA 项目。默认为 False。password
:Excel 文件的密码。默认为 None。使用 pandas 和 openpyxl 两个库都可以方便地读取 Excel 文件,具体使用哪个库取决于数据处理需求。pandas 提供的方法可以读取整个 Excel 文件或单个工作表,适用于数据分析时需要对整个文件进行处理的场景。而 openpyxl 库则可以读取 Excel 文件中的任意部分数据,适用于只需要读取特定数据的场景。