📜  BeautifulSoup(raw_html - Python (1)

📅  最后修改于: 2023-12-03 14:39:30.642000             🧑  作者: Mango

BeautifulSoup(raw_html - Python

简介

BeautifulSoup是Python的一个HTML/XML解析器,可以用于从网页中提取数据。它能够解析不良标记的文档,修复错误嵌套的标记,并使用优雅的方式遍历文档树。

安装

可以使用pip进行安装:

pip install beautifulsoup4
使用

首先,需要导入BeautifulSoup库以及需要解析的HTML/XML代码:

from bs4 import BeautifulSoup

raw_html = "<html><head><title>这是标题</title></head><body><p>这是一段内容</p></body></html>"
soup = BeautifulSoup(raw_html, 'html.parser')
标签选择器

可以使用不同的标签选择器来选择特定的标签:

soup.title # 获取title标签
soup.body.p # 获取body标签下的第一个p标签
soup.find_all('p') # 获取所有的p标签
属性选择器

可以使用属性选择器来选择具有特定属性的标签:

soup.find_all('a', attrs={'href': 'http://example.com'}) # 获取所有href属性为'http://example.com'的a标签
遍历文档树

可以使用遍历方法来遍历文档树:

for tag in soup.find_all('a'):
    print(tag.get('href'))
提取内容

可以使用不同的方法来提取标签中的内容:

soup.title.string # 获取title标签中的文本
soup.get_text() # 获取整个文档中的文本
结论

BeautifulSoup是一个功能强大的HTML/XML解析器,可以帮助程序员从网页中提取数据。它能够处理各种标记不良的文档,并提供了很多方便的方法来选择和提取标签中的内容。