Python|将 HTML 表格转换为 excel
MS Excel 是处理大量表格数据的强大工具。它对于排序、分析、执行复杂计算和可视化数据特别有用。在本文中,我们将讨论如何从网页中提取表格并将其存储为 Excel 格式。
第 1 步:转换为 Pandas 数据框
Pandas 是一个用于管理表的Python库。我们的第一步是将网页中的表格存储到 Pandas 数据框中。函数read_html()
返回一个数据框列表,每个元素代表网页中的一个表格。这里我们假设网页包含一个表格。
# Importing pandas
import pandas as pd
# The webpage URL whose table we want to extract
url = "https://www.geeksforgeeks.org/extended-operators-in-relational-algebra/"
# Assign the table data to a Pandas dataframe
table = pd.read_html(url)[0]
# Print the dataframe
print(table)
输出
0 1 2 3 4
0 ROLL_NO NAME ADDRESS PHONE AGE
1 1 RAM DELHI 9455123451 18
2 2 RAMESH GURGAON 9652431543 18
3 3 SUJIT ROHTAK 9156253131 20
4 4 SURESH DELHI 9156768971 18
步骤 #2:将 Pandas 数据框存储在 excel 文件中
为此,我们使用 Pandas 的to_excel()函数,将文件名作为参数传递。
# Importing pandas
import pandas as pd
# The webpage URL whose table we want to extract
url = "https://www.geeksforgeeks.org/extended-operators-in-relational-algebra/"
# Assign the table data to a Pandas dataframe
table = pd.read_html(url)[0]
# Store the dataframe in Excel file
table.to_excel("data.xlsx")
输出:
如果网页上有多个表格,我们可以将索引号从 0 更改为所需表格的索引号。