📅  最后修改于: 2023-12-03 15:24:35.942000             🧑  作者: Mango
当我们进行网页开发时,经常需要提取页面中的脚本和 CSS 文件,以便进行修改或优化。本文将介绍如何在 Python 中提取网页中的脚本和 CSS 文件。
首先,我们需要安装 requests
和 BeautifulSoup
库,它们分别用于获取网页内容和解析 HTML。
pip install requests
pip install beautifulsoup4
接下来,我们可以使用 requests
获取网页内容:
import requests
url = "https://example.com"
response = requests.get(url)
html = response.content
然后,我们使用 BeautifulSoup
解析 HTML,并提取其中的脚本和 CSS 文件:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
# 获取所有的脚本文件
scripts = [script.attrs.get("src") for script in soup.find_all("script")]
print("Scripts:", scripts)
# 获取所有的 CSS 文件
stylesheets = [link.attrs.get("href") for link in soup.find_all("link") if "stylesheet" in link.attrs.get("rel", "")]
print("Stylesheets:", stylesheets)
这里我们使用了 find_all
方法来查找 HTML 中所有的 script
标签和带有 rel="stylesheet"
属性的 link
标签,并分别提取它们的 src
和 href
属性值。
最后,我们可以通过以上代码获得网页中的脚本和 CSS 文件路径。
Scripts: ['/js/script1.js', '/js/script2.js']
Stylesheets: ['/css/style.css', '/css/print.css']
这些路径可以被用来下载这些文件,或者在代码中进行其他处理。
以上就是在 Python 中从网页中提取脚本和 CSS 文件的方法。