📅  最后修改于: 2023-12-03 15:29:36.551000             🧑  作者: Mango
Beautifulsoup 是 Python 中一个强大的文本查找库,主要用于从 HTML 和 XML 文件中提取数据。它的设计目的是为了帮助程序员快速、高效地获取不同网站上的数据。
可以通过 pip 安装 Beautifulsoup:
pip install beautifulsoup4
from bs4 import BeautifulSoup
<!DOCTYPE html>
<html>
<head>
<title>Example HTML Page</title>
</head>
<body>
<h1>Hello, World!</h1>
<p>Hello, Beautifulsoup!</p>
<ul>
<li><a href="https://www.google.com">Google</a></li>
<li><a href="https://www.baidu.com">Baidu</a></li>
</ul>
</body>
</html>
html_doc = """
<!DOCTYPE html>
<html>
<head>
<title>Example HTML Page</title>
</head>
<body>
<h1>Hello, World!</h1>
<p>Hello, Beautifulsoup!</p>
<ul>
<li><a href="https://www.google.com">Google</a></li>
<li><a href="https://www.baidu.com">Baidu</a></li>
</ul>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
# 查找第一个<a>标签
a_tag = soup.find('a')
# 查找所有<a>标签
a_tags = soup.find_all('a')
# 根据属性值name="description"查找
desc = soup.find(attrs={"name": "description"})
# 查找文本内容为"Google"的<a>标签
google = soup.find('a', text='Google')
Beautifulsoup 是一个强大的文本查找库,可以帮助程序员快速、高效地获取不同网站上的数据。使用 Beautifulsoup 不仅简单易用,而且功能强大,可以帮助开发人员在短时间内快速完成对网页信息的提取工作。