📅  最后修改于: 2023-12-03 15:06:58.414000             🧑  作者: Mango
在 Web 开发中,提取 HTML 页面中的数据是一项常见的任务。使用 Python 的美丽的汤(Beautiful Soup)库可以帮助我们在 HTML 页面中轻松地提取数据。其中,基于 src 属性的图像是我们最常提取的数据之一。下面将介绍如何使用 Python 的美丽的汤库来提取基于 src 属性的图像。
首先,我们需要安装美丽的汤库。可以使用以下命令进行安装:
pip install beautifulsoup4
导入必要的库:
from bs4 import BeautifulSoup
import requests
使用 requests 库获取需要提取数据的 HTML 页面。
url = "https://www.example.com/"
response = requests.get(url)
使用 Beautiful Soup 库解析 HTML 页面。
soup = BeautifulSoup(response.content, "html.parser")
使用 find_all() 方法查找所有 img 标签,并获取它们的 src 属性值。
img_tags = soup.find_all("img")
src_list = [img["src"] for img in img_tags]
打印提取的 src 属性值。
for src in src_list:
print(src)
from bs4 import BeautifulSoup
import requests
url = "https://www.example.com/"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
img_tags = soup.find_all("img")
src_list = [img["src"] for img in img_tags]
for src in src_list:
print(src)
以上代码片段可以在 Python 中使用,通过指定需要提取数据的 HTML 页面的 URL,就可以轻松地提取基于 src 属性的图像。