📌  相关文章
📜  将页面源写入文本文件 python (1)

📅  最后修改于: 2023-12-03 14:53:55.751000             🧑  作者: Mango

将页面源写入文本文件 Python

在网页爬虫的过程中,我们有时需要将网页的源代码写入到文本文件中。Python提供了很方便的函数和库来实现这个目标。在本文中,将介绍如何使用Python将页面源写入到文本文件中。

使用urllib库获取页面源代码

Python内置的urllib库提供了一个简单的方法来获取页面源代码。我们可以使用urlopen(url)函数打开一个网页,然后使用read()函数将返回的源码转换为字符串。

import urllib.request

url = "https://www.google.com"
response = urllib.request.urlopen(url)
webContent = response.read()

# 将网页源代码写入到文件'google.html'
with open('google.html', 'w') as f:
    f.write(str(webContent))

上述代码会将谷歌的首页源代码写入到文件google.html中。

使用requests库获取页面源代码

除了urllib库之外,还可以使用非常流行的requests库来获取页面源代码。requests库是Python中的第三方库,需要使用pip安装。

import requests

url = "https://www.baidu.com"
response = requests.get(url)
webContent = response.text

# 将网页源代码写入到文件'baidu.html'
with open('baidu.html', 'w') as f:
    f.write(str(webContent))

使用requests库可以更简单地获取网页源代码,不需要使用read()函数,而直接返回response.text。

现在我们可以使用上述方法将页面源写入到文本文件中。如果需要获取网页的其他元素,例如图片、CSS文件和JavaScript文件,可以使用类似的方法。