📅  最后修改于: 2023-12-03 14:45:56.171000             🧑  作者: Mango
BeautifulSoup 是一个用于解析 HTML 和 XML 标记的 Python 库。它提供了简单且便捷的方法来遍历解析后的文档树,以及搜索和提取所需的数据。
以下是一个示例,展示了如何使用 BeautifulSoup 解析 HTML 文档:
from bs4 import BeautifulSoup
# 要解析的 HTML 文档
html_doc = """
<html>
<head>
<title>示例文档</title>
</head>
<body>
<div class="container">
<h1>欢迎使用 BeautifulSoup</h1>
<p class="message">这是一个示例文档。</p>
<ul id="fruits">
<li class="apple">苹果</li>
<li class="banana">香蕉</li>
<li class="orange">橙子</li>
</ul>
</div>
</body>
</html>
"""
# 创建 BeautifulSoup 对象
soup = BeautifulSoup(html_doc, 'html.parser')
# 打印标题
title = soup.title.string
print('标题:', title)
# 打印段落文本
message = soup.find('p', class_='message').get_text()
print('段落:', message)
# 打印水果列表
fruits = soup.find('ul', id='fruits')
for li in fruits.find_all('li'):
print(li.get_text())
该示例首先将 HTML 文档中的某个部分存储在变量 html_doc
中。然后,它使用 BeautifulSoup
类创建一个 soup
对象,该对象用于表示解析后的文档树。
接下来的代码段演示了如何使用 soup
对象来提取文档中的内容。通过使用 find
方法,我们可以根据标签名和属性来查找特定的元素。然后,使用 get_text
方法可以获取元素的文本内容。
以上示例中的代码输出如下所示:
标题: 示例文档
段落: 这是一个示例文档。
苹果
香蕉
橙子
你可以根据实际需求来使用 BeautifulSoup,比如提取数据、修改文档等。它是一个功能强大且灵活的工具,可帮助你处理和解析复杂的 HTML 或 XML 文档。
更多关于 BeautifulSoup 的用法和功能,请参考官方文档:BeautifulSoup 官方文档
注意:为了运行上述代码段,你需要先安装 BeautifulSoup 库。可以使用 pip
命令来进行安装:
pip install beautifulsoup4