1.网页抓取:
Web Scraping 是一种技术,用于从网站中提取大量数据,然后以 XML、excel 或 SQL 的形式将其保存到本地机器。用于Web刮工具被称为网络刮刀。根据给定的要求,他们可以在很短的时间内从任何网站提取数据。这种任务自动化对于开发用于机器学习和其他目的的数据非常有帮助。他们分四步工作:
- 将请求发送到目标页面。
- 从目标页面获取响应。
- 解析和提取响应。
- 下载数据。
一些流行的网页抓取工具有 ProWebScraper、Webscraper.io 等。
2. 网络爬虫:
网络爬行类似于蜘蛛爬行,但这里爬行的地方是网络!。它基本上访问一个网站并阅读网页,目的是为搜索引擎索引建立条目。用于网络爬虫的工具被称为网络爬虫或蜘蛛。对一系列网页进行分析,然后跟踪指向这些网页上的网页的链接以获取更多链接,从而进行深度搜索以提取信息。谷歌、雅虎和必应等著名的搜索引擎会进行网络爬行并将这些信息用于为网页编制索引。例如 Scrapy 和 Apache nut。
Web Scraping 和 Web Crawling 的区别:
S.NO. | Web Scraping | Web Crawling |
---|---|---|
1. | The tool used is Web Scraper. | The tool used Web Crawler or Spiders. |
2. | It is used for downloading information | It is used for indexing of Web pages |
3. | It need not visit all the pages of website for infomation. | It visits each and every page, until the last line for information. |
4. | A Web Scraper doesn’t obey robots.txt in most of the cases. | It always obeys robots.txt. |
5. | It is done on both small and large scale. | It is mostly employed in large scale. |
6. | Application areas include Retail Marketing, Equity search and Machine learning. | Used in search engines to give search results to the user. |
7. | Data de-duplication is not necessarily a part of Web Scraping. | Data de-duplication is and integral part of Web Scraping. |
8. | This needs crawl agent and a parser for parsing the response. | This only needs only crawl agent. |
9. | ProWebScraper, Web Scraper.io are the examples | Google, Yahoo or Bing do Web Crawling |