📜  beautifulsoup 备忘单 (1)

📅  最后修改于: 2023-12-03 14:59:30.847000             🧑  作者: Mango

BeautifulSoup 备忘单

BeautifulSoup 是一个 Python 库,用于解析 HTML 和 XML 文档。它可以轻松地提取出其中的数据,也能够对文档进行修改和创建。

安装

BeautifulSoup 可以通过 pip 工具进行安装:

pip install beautifulsoup4
基本用法

首先,导入库并解析 HTML 文档:

from bs4 import BeautifulSoup

html_doc = """
<html>
  <head>
    <title>BeautifulSoup 备忘单</title>
  </head>
  <body>
    <p class="first">欢迎来到 BeautifulSoup 备忘单!</p>
    <p class="second">这是一个演示文档。</p>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
搜索标签

可以通过标签名称来搜索:

soup.find_all('p')

也可以通过类名来搜索:

soup.find_all(class_='first')
获取属性

通过 tag 对象的 attrs 属性可以获取标签的属性:

tag = soup.find('p')
tag.attrs['class']
获取文本

如果 tag 对象没有子节点,可以通过 string 属性获取其文本:

tag = soup.find('p')
tag.string
修改文档

通过修改 tag 对象的属性、插入子节点、修改子节点等方式,可以对文档进行修改。

参考资料