📜  python beautifulsoup 示例 - Python (1)

📅  最后修改于: 2023-12-03 14:45:56.171000             🧑  作者: Mango

Python BeautifulSoup 示例

BeautifulSoup 是一个用于解析 HTML 和 XML 标记的 Python 库。它提供了简单且便捷的方法来遍历解析后的文档树,以及搜索和提取所需的数据。

以下是一个示例,展示了如何使用 BeautifulSoup 解析 HTML 文档:

from bs4 import BeautifulSoup

# 要解析的 HTML 文档
html_doc = """
<html>
  <head>
    <title>示例文档</title>
  </head>
  <body>
    <div class="container">
      <h1>欢迎使用 BeautifulSoup</h1>
      <p class="message">这是一个示例文档。</p>
      <ul id="fruits">
        <li class="apple">苹果</li>
        <li class="banana">香蕉</li>
        <li class="orange">橙子</li>
      </ul>
    </div>
  </body>
</html>
"""

# 创建 BeautifulSoup 对象
soup = BeautifulSoup(html_doc, 'html.parser')

# 打印标题
title = soup.title.string
print('标题:', title)

# 打印段落文本
message = soup.find('p', class_='message').get_text()
print('段落:', message)

# 打印水果列表
fruits = soup.find('ul', id='fruits')
for li in fruits.find_all('li'):
    print(li.get_text())

该示例首先将 HTML 文档中的某个部分存储在变量 html_doc 中。然后,它使用 BeautifulSoup 类创建一个 soup 对象,该对象用于表示解析后的文档树。

接下来的代码段演示了如何使用 soup 对象来提取文档中的内容。通过使用 find 方法,我们可以根据标签名和属性来查找特定的元素。然后,使用 get_text 方法可以获取元素的文本内容。

以上示例中的代码输出如下所示:

标题: 示例文档
段落: 这是一个示例文档。
苹果
香蕉
橙子

你可以根据实际需求来使用 BeautifulSoup,比如提取数据、修改文档等。它是一个功能强大且灵活的工具,可帮助你处理和解析复杂的 HTML 或 XML 文档。

更多关于 BeautifulSoup 的用法和功能,请参考官方文档:BeautifulSoup 官方文档

注意:为了运行上述代码段,你需要先安装 BeautifulSoup 库。可以使用 pip 命令来进行安装:

pip install beautifulsoup4