beautifulsoup 备忘单 (1)

📌 相关文章

📜 beautifulsoup 备忘单 (1)

📅 最后修改于: 2023-12-03 14:59:30.847000 🧑 作者: Mango

BeautifulSoup 备忘单

BeautifulSoup 是一个 Python 库，用于解析 HTML 和 XML 文档。它可以轻松地提取出其中的数据，也能够对文档进行修改和创建。

安装

BeautifulSoup 可以通过 pip 工具进行安装：

pip install beautifulsoup4

基本用法

首先，导入库并解析 HTML 文档：

from bs4 import BeautifulSoup

html_doc = """
<html>
  <head>
    <title>BeautifulSoup 备忘单</title>
  </head>
  <body>
    <p class="first">欢迎来到 BeautifulSoup 备忘单！</p>
    <p class="second">这是一个演示文档。</p>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

搜索标签

可以通过标签名称来搜索：

soup.find_all('p')

也可以通过类名来搜索：

soup.find_all(class_='first')

获取属性

通过 tag 对象的 attrs 属性可以获取标签的属性：

tag = soup.find('p')
tag.attrs['class']

获取文本

如果 tag 对象没有子节点，可以通过 string 属性获取其文本：

tag = soup.find('p')
tag.string

修改文档

通过修改 tag 对象的属性、插入子节点、修改子节点等方式，可以对文档进行修改。

参考资料

BeautifulSoup 文档