📅  最后修改于: 2023-12-03 15:24:14.516000             🧑  作者: Mango
在数据分析和数据科学中,Excel 文件是常见的数据来源之一。在 Jupyter Notebook 中读取 Excel 文件也非常容易。本文将为大家介绍如何使用 Python 来读取 Excel 文件。
在使用 Python 读取 Excel 文件之前,需要确保已经安装了 Pandas 库。Pandas 是一种快速、强大、灵活的数据处理工具,可以处理来自多种来源的数据。
您可以使用以下命令在安装 Pandas:
python -m pip install pandas
下面的代码演示了如何在 Jupyter Notebook 中读取 Excel 文件:
import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('文件路径')
# 显示前5行数据
df.head()
其中,'文件路径' 是 Excel 文件的路径。您可以使用绝对路径或相对路径,相对路径可以是相对于当前 Jupyter Notebook 的路径。
如果 Excel 文件中有多个工作表,则可以使用以下代码来选择特定的工作表:
# 选择工作表
df = pd.read_excel('文件路径', sheet_name='工作表名称')
# 显示前5行数据
df.head()
其中,'工作表名称' 是您要选择的工作表的名称。您也可以使用工作表索引来选择工作表,如下所示:
# 选择工作表
df = pd.read_excel('文件路径', sheet_name=0)
# 显示前5行数据
df.head()
如果您只想读取 Excel 文件中的特定列,则可以使用以下代码:
# 选择特定的列
df = pd.read_excel('文件路径', usecols=['列1名称', '列2名称'])
# 显示前5行数据
df.head()
其中,'列1名称' 和 '列2名称' 是您要选择的列的名称。如果您不想选择特定的列,可以省略 usecols 参数。
如果您只想读取 Excel 文件中符合某些条件的行,则可以使用以下代码:
# 过滤行
df = pd.read_excel('文件路径', nrows=10, skiprows=range(1, 5))
# 显示前5行数据
df.head()
其中,nrows 参数用于指定要读取的行数,skiprows 参数用于指定要跳过的行数。在上面的示例中,我们将跳过文件中的第2到第5行,并只读取文件的前10行。
读取 Excel 文件时,Pandas 会将空单元格解释为 NaN(Not a Number)。如果您想要删除包含 NaN 值的行或列,则可以使用以下代码:
# 删除含有 NaN 值的行
df.dropna(inplace=True)
# 删除含有 NaN 值的列
df.dropna(axis='columns', inplace=True)
以上代码将删除 DataFrame 中任何列或行中包含 NaN 值的行或列。如果您不想删除行或列,则可以通过其他方式来处理 NaN 值,例如填充NaN 值或将其替换为其他值。
以上就是 Jupyter Notebook 中读取 Excel 文件的方法。Pandas 是一个非常强大的库,可以帮助您轻松地读取、处理和分析数据。如果您想了解更多有关 Pandas 的信息,请参阅 Pandas 文档。