📅  最后修改于: 2023-12-03 14:39:30.642000             🧑  作者: Mango
BeautifulSoup是Python的一个HTML/XML解析器,可以用于从网页中提取数据。它能够解析不良标记的文档,修复错误嵌套的标记,并使用优雅的方式遍历文档树。
可以使用pip进行安装:
pip install beautifulsoup4
首先,需要导入BeautifulSoup库以及需要解析的HTML/XML代码:
from bs4 import BeautifulSoup
raw_html = "<html><head><title>这是标题</title></head><body><p>这是一段内容</p></body></html>"
soup = BeautifulSoup(raw_html, 'html.parser')
可以使用不同的标签选择器来选择特定的标签:
soup.title # 获取title标签
soup.body.p # 获取body标签下的第一个p标签
soup.find_all('p') # 获取所有的p标签
可以使用属性选择器来选择具有特定属性的标签:
soup.find_all('a', attrs={'href': 'http://example.com'}) # 获取所有href属性为'http://example.com'的a标签
可以使用遍历方法来遍历文档树:
for tag in soup.find_all('a'):
print(tag.get('href'))
可以使用不同的方法来提取标签中的内容:
soup.title.string # 获取title标签中的文本
soup.get_text() # 获取整个文档中的文本
BeautifulSoup是一个功能强大的HTML/XML解析器,可以帮助程序员从网页中提取数据。它能够处理各种标记不良的文档,并提供了很多方便的方法来选择和提取标签中的内容。