📅  最后修改于: 2023-12-03 14:49:52.971000             🧑  作者: Mango
Python自带了一个内置的爬虫模块urllib
,它可以用来访问网页、获取网页源代码、扫描网页、获取网络信息等操作。下面是一个最小的例子:
from urllib import request
response = request.urlopen('https://www.baidu.com/')
print(response.read().decode('utf-8'))
这个例子中,我们使用urllib
模块中的request
函数访问了百度首页,并获取了网页的源代码。使用decode('utf-8')
将获取的字节流解码成utf-8
编码的字符串,最后将解码后的字符串打印到控制台上。
urllib
模块中还有很多其他的类和方法可以用来完成更加复杂的爬虫任务,例如:
urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)
:下载网页或文件到本地。
urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus)
:将字典或元组列表转换成URL编码的字符串。
urllib.robotparser.RobotFileParser(url='')
:解析robots.txt文件,用来判断爬虫是否有权限访问网站。
urllib
模块是进行爬虫的基础库之一,掌握其使用方法对于新手和有经验的程序员都非常重要。