📜  beautifulsoup 按文本查找 - Python (1)

📅  最后修改于: 2023-12-03 15:29:36.551000             🧑  作者: Mango

Beautifulsoup: Python中的文本查找神器

Beautifulsoup 是 Python 中一个强大的文本查找库,主要用于从 HTML 和 XML 文件中提取数据。它的设计目的是为了帮助程序员快速、高效地获取不同网站上的数据。

安装

可以通过 pip 安装 Beautifulsoup:

pip install beautifulsoup4
基本用法
  1. 导入 Beautifulsoup 库:
from bs4 import BeautifulSoup
  1. 准备待解析的 HTML 或 XML 文件,如下:
<!DOCTYPE html>
<html>
<head>
   <title>Example HTML Page</title>
</head>
<body>
   <h1>Hello, World!</h1>
   <p>Hello, Beautifulsoup!</p>
   <ul>
      <li><a href="https://www.google.com">Google</a></li>
      <li><a href="https://www.baidu.com">Baidu</a></li>
   </ul>
</body>
</html>
  1. 使用 Beautifulsoup 进行解析:
html_doc = """
    <!DOCTYPE html>
    <html>
    <head>
       <title>Example HTML Page</title>
    </head>
    <body>
       <h1>Hello, World!</h1>
       <p>Hello, Beautifulsoup!</p>
       <ul>
          <li><a href="https://www.google.com">Google</a></li>
          <li><a href="https://www.baidu.com">Baidu</a></li>
       </ul>
    </body>
    </html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
  1. 根据需要查找想要的元素,可以使用多种不同的方式进行查找,比如:
# 查找第一个<a>标签
a_tag = soup.find('a')

# 查找所有<a>标签
a_tags = soup.find_all('a')

# 根据属性值name="description"查找
desc = soup.find(attrs={"name": "description"})

# 查找文本内容为"Google"的<a>标签
google = soup.find('a', text='Google')
结论

Beautifulsoup 是一个强大的文本查找库,可以帮助程序员快速、高效地获取不同网站上的数据。使用 Beautifulsoup 不仅简单易用,而且功能强大,可以帮助开发人员在短时间内快速完成对网页信息的提取工作。