BeautifulSoup(raw_html - Python (1)

📌 相关文章

📜 BeautifulSoup(raw_html - Python (1)

📅 最后修改于: 2023-12-03 14:39:30.642000 🧑 作者: Mango

BeautifulSoup(raw_html - Python

简介

BeautifulSoup是Python的一个HTML/XML解析器，可以用于从网页中提取数据。它能够解析不良标记的文档，修复错误嵌套的标记，并使用优雅的方式遍历文档树。

安装

可以使用pip进行安装：

pip install beautifulsoup4

使用

首先，需要导入BeautifulSoup库以及需要解析的HTML/XML代码：

from bs4 import BeautifulSoup

raw_html = "<html><head><title>这是标题</title></head><body><p>这是一段内容</p></body></html>"
soup = BeautifulSoup(raw_html, 'html.parser')

标签选择器

可以使用不同的标签选择器来选择特定的标签：

soup.title # 获取title标签
soup.body.p # 获取body标签下的第一个p标签
soup.find_all('p') # 获取所有的p标签

属性选择器

可以使用属性选择器来选择具有特定属性的标签：

soup.find_all('a', attrs={'href': 'http://example.com'}) # 获取所有href属性为'http://example.com'的a标签

遍历文档树

可以使用遍历方法来遍历文档树：

for tag in soup.find_all('a'):
    print(tag.get('href'))

提取内容

可以使用不同的方法来提取标签中的内容：

soup.title.string # 获取title标签中的文本
soup.get_text() # 获取整个文档中的文本

结论

BeautifulSoup是一个功能强大的HTML/XML解析器，可以帮助程序员从网页中提取数据。它能够处理各种标记不良的文档，并提供了很多方便的方法来选择和提取标签中的内容。