Python Web爬虫教程 - 芒果文档

📅 最后修改于: 2020-11-07 07:57:55 🧑 作者: Mango

Web抓取，也称为Web数据挖掘或Web收获，是构建代理的过程，该代理可以自动从Web提取，解析，下载和组织有用的信息。本教程将教您各种Web抓取的概念，并使您轻松抓取各种类型的网站及其数据。对于对本学科感兴趣或将其作为课程一部分的研究生，研究生和研究型学生，本教程将非常有用。本教程适合初学者或高级学习者的学习需求。先决条件读者必须具有有关HTML，CSS和Java脚本的基本知识。他/她还应该了解...

Python Web爬网-简介

📅 最后修改于: 2020-11-07 07:58:33 🧑 作者: Mango

Web抓取是从Web提取信息的自动过程。本章将为您提供有关Web抓取的深入概念，它与Web抓取的比较以及为什么要选择Web抓取。您还将了解网络刮板的组件和工作原理。什么是网页抓取?词典中“ Scrapping”一词的含义意味着可以从网络中获取某些东西。这里出现两个问题：我们可以从网上获得什么以及如何获得。第一个问题的答案是“数据”。数据对于任何程序员来说都是必不可少的，每个编程项目的基本要求是大量...

Python入门

📅 最后修改于: 2020-11-07 07:59:05 🧑 作者: Mango

在第一章中，我们了解了Web抓取的全部内容。在本章中，让我们看看如何使用Python实施Web抓取。为什么要使用Python进行网页爬取?Python是用于实施Web抓取的流行工具。 Python编程语言还用于与网络安全，渗透测试以及数字取证应用程序相关的其他有用项目。使用Python的基本编程，无需使用任何其他第三方工具即可执行Web抓取。Python编程语言正变得越来越流行，使Python非常...

用于Web抓取的Python模块

📅 最后修改于: 2020-11-07 07:59:59 🧑 作者: Mango

在本章中，让我们学习可用于Web抓取的各种Python模块。使用virtualenv的Python开发环境Virtualenv是用于创建隔离的Python环境的工具。在virtualenv的帮助下，我们可以创建一个文件夹，其中包含使用Python项目所需的软件包的所有必需可执行文件。它还允许我们添加和修改Python模块，而无需访问全局安装。您可以使用以下命令安装virtualenv-现在，我们需...

Web爬网的合法性

📅 最后修改于: 2020-11-07 08:00:51 🧑 作者: Mango

使用Python，我们可以抓取任何网站或网页的特定元素，但是您是否知道它是否合法?在抓取任何网站之前，我们必须了解网络抓取的合法性。本章将解释与网络抓取合法性有关的概念。介绍通常，如果您打算将抓取的数据用于个人用途，则可能没有任何问题。但是，如果要重新发布该数据，则在进行同样的操作之前，应向所有者提出下载请求，或者对要刮取的数据以及策略进行一些背景研究。报名前需要研究如果您要针对某个网站从中抓取数...

Python Web爬网-数据提取

📅 最后修改于: 2020-11-07 08:01:33 🧑 作者: Mango

分析网页意味着了解其结构。现在，出现了一个问题，为什么它对刮网很重要?在本章中，让我们详细了解这一点。网页分析网页分析非常重要，因为如果不进行分析，我们将无法知道提取后将以哪种形式从该网页接收(结构化或非结构化)数据。我们可以通过以下方式进行网页分析-查看页面源这是通过检查源代码来了解网页结构的一种方式。要实现此目的，我们需要右键单击该页面，然后必须选择“查看页面源”选项。然后，我们将以HTML的...

Python Web爬网-数据处理

📅 最后修改于: 2020-11-07 08:02:18 🧑 作者: Mango

在前面的章节中，我们学习了有关通过各种Python模块从网页中提取数据或进行网页抓取的知识。在本章中，让我们研究各种技术来处理已抓取的数据。介绍要处理已抓取的数据，我们必须将数据以特定格式存储在本地计算机上，例如电子表格(CSV)，JSON或有时存储在MySQL等数据库中。CSV和JSON数据处理首先，从网页抓取后，我们将信息写入CSV文件或电子表格中。让我们首先通过一个简单的示例来理解，在该示例...

处理图像和视频

📅 最后修改于: 2020-11-07 08:03:07 🧑 作者: Mango

Web抓取通常涉及下载，存储和处理Web媒体内容。在本章中，让我们了解如何处理从Web下载的内容。介绍我们在抓取过程中获得的Web媒体内容可以是非网页形式的图像，音频和视频文件以及数据文件。但是，我们能否信任下载的数据，尤其是我们将要下载并存储在计算机内存中的数据扩展名?这使得了解我们将要在本地存储的数据类型至关重要。从网页获取媒体内容在本节中，我们将学习如何下载基于Web服务器信息正确表示媒体类...

Python Web爬网-处理文本

📅 最后修改于: 2020-11-07 08:04:04 🧑 作者: Mango

在上一章中，我们了解了如何处理作为Web抓取内容的一部分而获得的视频和图像。在本章中，我们将使用Python库处理文本分析，并将对此进行详细了解。介绍您可以使用称为自然语言工具包(NLTK)的Python库执行文本分析。在深入探讨NLTK的概念之前，让我们了解文本分析和Web抓取之间的关系。分析文本中的单词可以使我们知道哪些单词很重要，哪些单词不寻常，如何对单词进行分组。该分析简化了网络抓取的任务...

Python Web爬网-动态网站

📅 最后修改于: 2020-11-07 08:04:39 🧑 作者: Mango

在本章中，让我们学习如何在动态网站上执行Web抓取以及详细涉及的概念。介绍Web抓取是一项复杂的任务，如果网站是动态的，则复杂性会成倍增加。根据联合国网络无障碍全球审计，超过70％的网站本质上是动态的，并且它们依靠JavaScript来实现其功能。动态网站示例让我们看一个动态网站的例子，了解为什么很难抓取。在这里，我们将以从名为http://example.webscraping.com/plac...

Python Web爬网-基于表单的网站

📅 最后修改于: 2020-11-07 08:05:15 🧑 作者: Mango

在上一章中，我们已经看到了抓取动态网站。在本章中，让我们了解对基于用户输入的网站(即基于表单的网站)的抓取。介绍如今，WWW(万维网)正朝着社交媒体以及用户生成的内容发展。因此，出现了一个问题，我们如何才能访问登录屏幕之外的此类信息?为此，我们需要处理表单和登录名。在前几章中，我们使用HTTP GET方法来请求信息，但是在本章中，我们将使用HTTP POST方法将信息推送到Web服务器进行存储和分...

Python Web爬网-处理验证码

📅 最后修改于: 2020-11-07 08:05:44 🧑 作者: Mango

在本章中，让我们了解如何执行Web抓取和处理用于测试用户的人类或机器人的CAPTCHA。什么是验证码?CAPTCHA的完整形式是完全自动化的公共Turing测试，可以告诉Computers and Humans Apart，它清楚地表明，这是确定用户是否为人类的测试。验证码是失真的图像，通常不易通过计算机程序检测到，但是人类可以以某种方式设法理解它。大多数网站都使用CAPTCHA来防止漫游器进行交...

Python Web爬网-使用爬虫进行测试

📅 最后修改于: 2020-11-07 08:06:24 🧑 作者: Mango

本章介绍如何使用Python的Web爬虫执行测试。介绍在大型Web项目中，会定期执行对网站后端的自动化测试，但经常会跳过前端测试。这背后的主要原因是网站的编程就像各种标记和编程语言的网络一样。我们可以为一种语言编写单元测试，但是如果以另一种语言进行交互则变得充满挑战。这就是为什么我们必须具有一组测试来确保我们的代码按预期执行的原因。使用Python测试当我们谈论测试时，它意味着单元测试。在深入研究...

Python Web爬网-有用的资源

📅 最后修改于: 2020-11-07 08:06:40 🧑 作者: Mango

以下资源包含有关Python Web Scraping的其他信息。请使用它们来获得有关该主题的更深入的知识。Python Web Scraping上的有用链接Python的网页抓取百科-百科参考Python的网页抓取。Python Web Scraping的实用书籍要在此页面上注册您的网站，请发送电子邮件至contact@tutorialspoint.com...

讨论Python Web爬网

📅 最后修改于: 2020-11-07 08:06:52 🧑 作者: Mango

Web抓取，也称为Web数据挖掘或Web收获，是构建代理的过程，该代理可以自动从Web提取，解析，下载和组织有用的信息。本教程将教您各种Web抓取的概念，并使您轻松抓取各种类型的网站及其数据。...