read_html pandas skiprows 函数示例 - Html (1)

📌 相关文章

📜 read_html pandas skiprows 函数示例 - Html (1)

📅 最后修改于: 2023-12-03 14:47:02.233000 🧑 作者: Mango

当需要从HTML文档中读取表格数据时，可以使用pandas库中的read_html函数。该函数可以自动识别HTML中的表格，并将其转换为DataFrame对象。

同时，如果表格中存在无用的行，我们可以使用skiprows参数来跳过这些行。下面是一个示例：

import pandas as pd

# 从HTML中读取表格数据
table = pd.read_html(html)[0]

# 跳过第0和第1行
table = pd.read_html(html, skiprows=[0, 1])[0]

# 显示结果
print(table)

在上面的示例中，我们首先使用read_html函数读取HTML中的表格数据，并将结果转换为DataFrame对象。接着，我们使用skiprows参数来跳过第0和第1行，最后将结果保存到table变量中。

需要注意的是，read_html函数返回的是一个列表，因为HTML文档中可能存在多个表格。我们使用[0]来获取第一个表格，如果需要获取其他表格，可以使用不同的索引。

为了方便演示，我们只显示了最终结果，实际使用时，还需要根据需求进行数据清洗和处理。

以上就是read_html函数和skiprows参数的简单介绍，希望能对你有所帮助。