如何使用Python从本地 HTML 文件中抓取数据？(1)

📌 相关文章

📜 如何使用Python从本地 HTML 文件中抓取数据？(1)

📅 最后修改于: 2023-12-03 15:24:00.512000 🧑 作者: Mango

如果你想从本地 HTML 文件中抓取数据，使用 Python 来获取数据是一个选择。下面是一些方法，让你可以在 Python 中读取本地 HTML 文件，并从中抓取数据。

Python 自带的库中，有一个叫做 BeautifulSoup 的库，可以很好的处理 HTML 和 XML 文件。如果没有安装，可以通过如下命令安装：

pip install beautifulsoup4

下面是使用 BeautifulSoup 库从本地 HTML 文件中读取数据的示例代码：

from bs4 import BeautifulSoup

with open("ip.html") as fp:
    soup = BeautifulSoup(fp)

tds = soup.find_all("td")
for td in tds:
    print(td.text)

示例代码解释：

除了 Python 自带的库外，还有一些第三方库也可以处理 HTML 文件，比如 PyQuery 和 lxml。

PyQuery 库是受到了 jQuery 的启发而开发的，可以方便的对 HTML 和 XML 进行解析和操作。如果没有安装，可以通过如下命令安装：

pip install pyquery

下面是使用 PyQuery 库从本地 HTML 文件中读取数据的示例代码：

from pyquery import PyQuery as pq

with open("ip.html") as fp:
    doc = pq(fp.read())

tds = doc("td")
for td in tds:
    print(pq(td).text())

示例代码解释：

lxml 库是一个快速、灵活和具有表现力的 XML 和 HTML 处理库。如果没有安装，可以通过如下命令安装：

pip install lxml

下面是使用 lxml 库从本地 HTML 文件中读取数据的示例代码：

from lxml import etree

with open("ip.html") as fp:
    doc = etree.HTML(fp.read())

tds = doc.xpath("//td")
for td in tds:
    print(td.text)

示例代码解释：

本文介绍了如何使用 Python 从本地 HTML 文件中抓取数据。我们可以使用 Python 自带的库、PyQuery 库和 lxml 库来处理 HTML 文件，并从中抓取数据。其中，BeautifulSoup 库和 PyQuery 库更为方便和易用，lxml 库则更快和灵活。