如果您无论如何都与“Web Scraping”这个词有关,那么您一定会遇到一个问题——Web Scrapping 是合法的还是非法的?好的,那我们来讨论一下。如果您仔细观察,您会发现在当今时代,任何企业最大的资产就是数据!即使是像Facebook 、亚马逊、优步这样的顶级巨头也在统治,因为他们拥有大量的数据。如果有人在几分钟内从所有者的网站上提取所有这些数据怎么办?是的,这就是 Web Scraping 的用武之地。
网页抓取是使用软件或脚本从网站自动提取数据和特定信息的过程。提取的信息可以以各种格式存储,如 SQL、Excel 和 HTML。有许多网页抓取工具可以执行任务和各种语言,还有支持网页抓取的库。在所有这些语言中, Python被认为是最适合 Web Scraping 的语言之一,因为它具有丰富的库、易于使用、动态类型等特性。 Beautiful Soup和Scrapy就是支持 Web 抓取的Python库。
现在,您一定在想,为什么有人试图从网站中提取如此庞大的数据,或者进行 Web Scraping 背后的好处是什么。如上所述,数据对企业的价值有多大,因此如果您可以通过 Web Scraping 访问该数据,则可以将其用于各种目的,例如 –
- 竞争分析
- 领先一代
- 联系信息可访问性
- 品牌监控
- 社交媒体抓取
- 研究与开发
- 提取财务报表等
好的,让我们回到我们开始的那一点 –进行 Web Scraping 是否合法?但是,从技术上讲,进行 Web Scraping 并不是任何类型的非法过程,而是基于进一步的各种因素做出决定——您如何使用提取的数据?或者您是否违反了“条款和条件”声明?等让我们举个例子,
假设您一般允许某人从正门进入您的住所,但该人优选通过边界墙过来。那么,你会允许这个人进入你的住所吗?同样,大多数网站显示的数据通常可供公众访问,因为将这些数据存储在您的系统中供个人使用是合法的。但是,如果您希望在未经所有者同意的情况下将其用作您自己的,并且违反了“条款和条件”指南,则在此处将被视为非法。然而,关于网页抓取的法律并不透明,但仍有一些规定可能会让您陷入未经授权的网页抓取。下面列出了其中一些:
- 违反数字千年版权法案 (DMCA)
- 违反计算机欺诈和滥用法案 (CFAA)
- 违反合约
- 版权侵权
- 闯入等。
LinkedIn 与 HiQ
您可以说“LinkedIn 与 HiQ”是有关数据抓取的最大法律纠纷之一。 HiQ 是一家数据分析公司,在与 LinkedIn 发生法律纠纷时,后者向 HiQ 发送了一封正式信函,要求其停止抓取该网站。但 LinkedIn 遭到了 HiQ 的反击,因为他们表示,任何访问它的人都可以访问 LinkedIn 的数据,并且抓取公开数据没有任何虚假。然而,LinkedIn 的最终决定并不值得称赞,因为法院禁止该公司阻止 HiQ 从平台上公开的个人资料中抓取数据的请求。本案有一些不同之处,因为与早期的 Web Scraping 法律纠纷不同,这里的法院不支持数据被报废的公司。
Facebook 与 Power Ventures
“Facebook Vs Power Ventures”也是一个众所周知的关于数据抓取的法律纠纷。这是 Facebook 提起的一项法律诉讼,声称 Power Ventures Inc. 已从 Facebook 收集用户数据并在其网站上使用。 Facebook 声称该公司违反了《计算机欺诈和滥用法案》(CFAA) 以及《加利福尼亚州综合计算机数据访问和欺诈法案》。根据 Facebook 的说法,Power Ventures 在提取用户数据的过程中还使用了 Facebook 的身份,这也违反了 CAN-SPAM 法案。在辩护中,Power Ventures 表示 Facebook 的 DMCA 声明不足以被考虑。他们还表示,未满足未经授权的访问,因为用户实际上是通过 Power Ventures 平台访问自己在 Facebook 上的数据。尽管尽管有这些争论,但法院的裁决还是有利于 Facebook。
好的,在了解进行 Web Scraping 是否合法或非法之后,取决于您如何执行抓取以及如何使用数据。现在,看看你在做 Web Scraping 时应该遵循的那些策略——
- 在提供 API 的情况下,尽量避免 Web Scraping
- 在您的请求之间保持大约 12-15 秒的间隔
- 未经原所有者同意,请勿将抓取的数据用于商业目的。
- 始终阅读服务条款并遵守政策。
- 如果有人对访问他们的数据设置了一些限制,那么在进一步操作之前最好征得他们的许可。
从以上所有讨论中,可以得出结论,Web Scraping 本身实际上并不违法,但在进行时应该合乎道德。如果做得好,Web Scraping 可以帮助我们充分利用网络,其中最大的例子就是 Google 搜索引擎。因此,不要让目标网站所有者有任何理由阻止甚至起诉您的任何不当行为,并尊重其他网站的服务条款 (ToS)。