📜  Python|将 HTML 表格转换为 excel

📅  最后修改于: 2022-05-13 01:55:16.818000             🧑  作者: Mango

Python|将 HTML 表格转换为 excel

MS Excel 是处理大量表格数据的强大工具。它对于排序、分析、执行复杂计算和可视化数据特别有用。在本文中,我们将讨论如何从网页中提取表格并将其存储为 Excel 格式。

第 1 步:转换为 Pandas 数据框
Pandas 是一个用于管理表的Python库。我们的第一步是将网页中的表格存储到 Pandas 数据框中。函数read_html()返回一个数据框列表,每个元素代表网页中的一个表格。这里我们假设网页包含一个表格。

# Importing pandas
import pandas as pd
  
# The webpage URL whose table we want to extract
url = "https://www.geeksforgeeks.org/extended-operators-in-relational-algebra/"
  
# Assign the table data to a Pandas dataframe
table = pd.read_html(url)[0]
  
# Print the dataframe
print(table)

输出

0       1        2           3    4
0  ROLL_NO    NAME  ADDRESS       PHONE  AGE
1        1     RAM    DELHI  9455123451   18
2        2  RAMESH  GURGAON  9652431543   18
3        3   SUJIT   ROHTAK  9156253131   20
4        4  SURESH    DELHI  9156768971   18


步骤 #2:将 Pandas 数据框存储在 excel 文件中
为此,我们使用 Pandas 的to_excel()函数,将文件名作为参数传递。

# Importing pandas
import pandas as pd
  
# The webpage URL whose table we want to extract
url = "https://www.geeksforgeeks.org/extended-operators-in-relational-algebra/"
  
# Assign the table data to a Pandas dataframe
table = pd.read_html(url)[0]
  
# Store the dataframe in Excel file
table.to_excel("data.xlsx")

输出:
excel_sheet

如果网页上有多个表格,我们可以将索引号从 0 更改为所需表格的索引号。