📅  最后修改于: 2023-12-03 14:59:30.847000             🧑  作者: Mango
BeautifulSoup 是一个 Python 库,用于解析 HTML 和 XML 文档。它可以轻松地提取出其中的数据,也能够对文档进行修改和创建。
BeautifulSoup 可以通过 pip 工具进行安装:
pip install beautifulsoup4
首先,导入库并解析 HTML 文档:
from bs4 import BeautifulSoup
html_doc = """
<html>
<head>
<title>BeautifulSoup 备忘单</title>
</head>
<body>
<p class="first">欢迎来到 BeautifulSoup 备忘单!</p>
<p class="second">这是一个演示文档。</p>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
可以通过标签名称来搜索:
soup.find_all('p')
也可以通过类名来搜索:
soup.find_all(class_='first')
通过 tag
对象的 attrs
属性可以获取标签的属性:
tag = soup.find('p')
tag.attrs['class']
如果 tag
对象没有子节点,可以通过 string
属性获取其文本:
tag = soup.find('p')
tag.string
通过修改 tag
对象的属性、插入子节点、修改子节点等方式,可以对文档进行修改。