Scrapy-爬取数据 - 芒果文档

📌 相关文章

📜 Scrapy-爬取数据

📅 最后修改于: 2020-10-31 14:39:38 🧑 作者: Mango

描述

存储抓取数据的最佳方法是使用Feed导出，以确保使用多种序列化格式正确存储了数据。 JSON，JSON行，CSV，XML是序列化格式中容易支持的格式。数据可以使用以下命令存储-

scrapy crawl dmoz -o data.json

此命令将创建一个data.json文件，其中包含JSON中的抓取数据。该技术适用于少量数据。如果必须处理大量数据，则可以使用项目管道。就像data.json文件一样，在tutorial / pipelines.py中创建项目时会设置一个保留文件。