📅  最后修改于: 2023-12-03 14:53:55.751000             🧑  作者: Mango
在网页爬虫的过程中,我们有时需要将网页的源代码写入到文本文件中。Python提供了很方便的函数和库来实现这个目标。在本文中,将介绍如何使用Python将页面源写入到文本文件中。
Python内置的urllib库提供了一个简单的方法来获取页面源代码。我们可以使用urlopen(url)函数打开一个网页,然后使用read()函数将返回的源码转换为字符串。
import urllib.request
url = "https://www.google.com"
response = urllib.request.urlopen(url)
webContent = response.read()
# 将网页源代码写入到文件'google.html'
with open('google.html', 'w') as f:
f.write(str(webContent))
上述代码会将谷歌的首页源代码写入到文件google.html中。
除了urllib库之外,还可以使用非常流行的requests库来获取页面源代码。requests库是Python中的第三方库,需要使用pip安装。
import requests
url = "https://www.baidu.com"
response = requests.get(url)
webContent = response.text
# 将网页源代码写入到文件'baidu.html'
with open('baidu.html', 'w') as f:
f.write(str(webContent))
使用requests库可以更简单地获取网页源代码,不需要使用read()函数,而直接返回response.text。
现在我们可以使用上述方法将页面源写入到文本文件中。如果需要获取网页的其他元素,例如图片、CSS文件和JavaScript文件,可以使用类似的方法。