📜  Scrapy-概述

📅  最后修改于: 2020-10-31 14:30:34             🧑  作者: Mango


Scrapy是一个用Python编写的快速,开放源代码的Web爬网框架,用于在基于XPath的选择器的帮助下从网页中提取数据。

Scrapy于2008年6月26日首次发布,获得了BSD的许可,并在2015年6月发布了里程碑1.0。

为什么要使用Scrapy?

  • 构建和扩展大型爬网项目更容易。

  • 它具有称为选择器的内置机制,用于从网站提取数据。

  • 它异步处理请求,而且速度很快。

  • 它使用自动节流机制自动调整爬行速度。

  • 确保开发人员可访问性。

Scrapy的功能

  • Scrapy是一个开源且免费使用的Web爬网框架。

  • Scrapy以JSON,CSV和XML等格式生成Feed导出。

  • Scrapy内置支持通过XPath或CSS表达式从源中选择和提取数据。

  • 基于爬虫的Scrapy,允许自动从网页中提取数据。

好处

  • Scrapy易于扩展,快速且强大。

  • 它是一个跨平台的应用程序框架(Windows,Linux,Mac OS和BSD)。

  • Scrapy请求是异步计划和处理的。

  • Scrapy带有称为Scrapyd的内置服务,该服务允许使用JSON Web服务上载项目并控制Spider。

  • 尽管该网站没有用于原始数据访问的API,但也可能会删除该网站。

缺点

  • Scrapy仅适用于Python 2.7。 +

  • 对于不同的操作系统,安装是不同的。