📅  最后修改于: 2023-12-03 14:39:30.385000             🧑  作者: Mango
Beautiful Soup 是一个用于从 HTML 或 XML 文件中提取数据的 Python 库。它提供了一种方便和灵活的方式来解析和遍历 HTML 或 XML 结构,并从中获取所需的数据。
通过以下命令可以使用 pip 安装 Beautiful Soup:
pip install beautifulsoup4
以下是一个简单的示例,演示了如何使用 Beautiful Soup 解析 HTML 并获取其中的数据:
from bs4 import BeautifulSoup
import requests
# 发起 HTTP 请求获取 HTML 内容
response = requests.get("http://example.com")
html_content = response.text
# 创建 BeautifulSoup 对象
soup = BeautifulSoup(html_content, "html.parser")
# 通过标签名获取元素
title = soup.title
print("Page title:", title.text)
# 通过选择器获取元素
links = soup.select("a")
for link in links:
print("Link URL:", link["href"])
print("Link text:", link.text)
Beautiful Soup 提供了许多功能来处理 HTML 和 XML 文档,包括但不限于:
详细的用法和示例可以参考 Beautiful Soup 的官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Beautiful Soup 是一个功能强大、易用且灵活的 Python 库,为程序员提供了方便的方式来解析和处理 HTML 或 XML 文件。它的特点包括灵活性、容错能力和易用性。无论是爬虫、数据抓取,还是数据清洗和分析,Beautiful Soup 都是一个非常实用的工具。