📅  最后修改于: 2023-12-03 15:34:52.445000             🧑  作者: Mango
Scrapy是一个Python开源网络爬虫框架,可用于抓取网站并从中提取结构化的数据。它广泛应用于数据抓取、数据挖掘以及自动化测试等领域。
Scrapy的安装非常简单,使用pip即可完成:
pip install scrapy
在安装完成之后,我们可以在命令行中输入以下命令来检查是否安装成功:
scrapy version
Scrapy的爬取流程包括以下几个步骤:
scrapy startproject myproject
scrapy genspider myspider example.com
myproject/spiders/myspider.py
scrapy crawl myspider
下面是一个简单的爬虫示例,用于爬取腾讯新闻的标题和连接:
import scrapy
class TencentNewsSpider(scrapy.Spider):
name = 'tencentnews'
start_urls = ['https://news.qq.com/']
def parse(self, response):
for news_item in response.css('.newslist li'):
yield {
'title': news_item.css('a::text').get(),
'link': news_item.css('a::attr(href)').get()
}
运行命令 scrapy crawl tencentnews
可以开始爬取腾讯新闻的数据。