📜  如何在Python从网页中提取脚本和 CSS 文件?(1)

📅  最后修改于: 2023-12-03 15:24:35.942000             🧑  作者: Mango

如何在Python从网页中提取脚本和 CSS 文件?

当我们进行网页开发时,经常需要提取页面中的脚本和 CSS 文件,以便进行修改或优化。本文将介绍如何在 Python 中提取网页中的脚本和 CSS 文件。

使用 requests 和 BeautifulSoup 库

首先,我们需要安装 requestsBeautifulSoup 库,它们分别用于获取网页内容和解析 HTML。

pip install requests
pip install beautifulsoup4

接下来,我们可以使用 requests 获取网页内容:

import requests

url = "https://example.com"
response = requests.get(url)

html = response.content

然后,我们使用 BeautifulSoup 解析 HTML,并提取其中的脚本和 CSS 文件:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")

# 获取所有的脚本文件
scripts = [script.attrs.get("src") for script in soup.find_all("script")]
print("Scripts:", scripts)

# 获取所有的 CSS 文件
stylesheets = [link.attrs.get("href") for link in soup.find_all("link") if "stylesheet" in link.attrs.get("rel", "")]
print("Stylesheets:", stylesheets)

这里我们使用了 find_all 方法来查找 HTML 中所有的 script 标签和带有 rel="stylesheet" 属性的 link 标签,并分别提取它们的 srchref 属性值。

最后,我们可以通过以上代码获得网页中的脚本和 CSS 文件路径。

Scripts: ['/js/script1.js', '/js/script2.js']
Stylesheets: ['/css/style.css', '/css/print.css']

这些路径可以被用来下载这些文件,或者在代码中进行其他处理。

以上就是在 Python 中从网页中提取脚本和 CSS 文件的方法。