📅  最后修改于: 2023-12-03 15:11:52.852000             🧑  作者: Mango
Beautifulsoup 是一个用于解析 HTML 和 XML 文件的 Python 库。它可以用来提取网页中的各种信息,包括文本、图片、链接,以及页面结构等。
使用 Beautifulsoup 解析 HTML 文件时,最常见的操作就是获取页面的标题。以下是通过 Beautifulsoup 获取 HTML 文件标题的示例代码:
from bs4 import BeautifulSoup
import requests
# 获取 HTML 页面
url = "https://www.example.com"
html = requests.get(url).text
# 解析 HTML 页面
soup = BeautifulSoup(html, "html.parser")
# 获取页面标题
title = soup.title.string
# 输出标题
print(title)
以上代码会输出页面的标题,例如:
Example Domain
如果页面中有多个标题,可以使用 find_all()
方法获取所有标题,并逐个输出:
# 获取所有标题
titles = soup.find_all("title")
# 依次输出标题
for title in titles:
print(title.string)
以上代码会输出所有页面标题,例如:
Example Domain
如需了解更多关于 Beautifulsoup 的使用方法,请参考官方文档。