📅  最后修改于: 2023-12-03 14:54:07.437000             🧑  作者: Mango
Scrapy是一个Python编写的数据挖掘框架,适合用于各种网站的爬取。 Scrapy中的链接提取器用于从响应中提取所有链接。 本文将介绍如何在常规蜘蛛中使用Scrapy链接提取器。
首先需要安装Scrapy。在命令行中输入以下命令即可:
pip install scrapy
Scrapy链接提取器可以很容易地使用常规蜘蛛进行创建。在常规蜘蛛的parse()
方法中,您可以使用response.css()
或response.xpath()
来提取链接。
例如,以下代码提取所有在响应中找到的链接并将它们打印出来:
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
def start_requests(self):
yield scrapy.Request('http://www.example.com')
def parse(self, response):
links = response.xpath('//a/@href')
for link in links:
print(link.get())
在上面的代码中,我们使用了XPath表达式//a/@href
来选择每个<a>
标签的href
属性。
如果您想将找到的所有链接保存到文件中,可以使用以下代码:
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
def start_requests(self):
yield scrapy.Request('http://www.example.com')
def parse(self, response):
links = response.xpath('//a/@href')
with open('links.txt', 'w') as f:
for link in links:
f.write(link.get() + '\n')
在上面的代码中,我们将链接保存到名为links.txt
的文件中。
通过使用Scrapy链接提取器,您可以轻松地从网站中提取链接。利用它们,您可以构建更强大的爬虫来收集所需的数据。