📝 Beautiful Soup教程

14篇技术文档
  Beautiful Soup教程

📅  最后修改于: 2020-11-09 04:46:05        🧑  作者: Mango

在本教程中,我们将向您展示如何使用Beautiful Soup 4在Python执行网络抓取,以从HTML,XML和其他标记语言中获取数据。在此,我们将尝试从各种不同的网站(包括IMDB)中抓取网页。我们将介绍漂亮的汤4,这是Python基本工具,可用于有效,清晰地导航,搜索和解析HTML网页。在本教程中,我们尝试涵盖了Beautiful Soup 4的几乎所有功能。您可以将本教程中介绍的多种功能...

  Beautiful Soup-概述

📅  最后修改于: 2020-11-09 04:46:32        🧑  作者: Mango

在当今世界,我们有大量免费的非结构化数据/信息(主要是网络数据)。有时免费提供的数据易于读取,有时则不容易。无论数据如何可用,Web抓取都是将非结构化数据转换为易于阅读和分析的结构化数据的非常有用的工具。换句话说,收集,组织和分析大量数据的一种方法是通过网络抓取。因此,让我们首先了解什么是网络抓取。什么是网页抓取?爬取只是一个(通过各种方式)提取,复制和筛选数据的过程。当我们从网络(例如从网页或网...

  Beautiful Soup-安装

📅  最后修改于: 2020-11-09 04:48:19        🧑  作者: Mango

由于BeautifulSoup不是标准的Python库,因此我们需要先安装它。我们将安装最新的BeautifulSoup 4库(也称为BS4)。为了隔离我们的工作环境,以免干扰现有的设置,我们首先创建一个虚拟环境。创建虚拟环境(可选)虚拟环境允许我们为特定项目创建Python的隔离工作副本,而不会影响外部设置。安装任何Python软件包机器的最佳方法是使用pip,但是,如果尚未安装pip(您可以在...

  Beautiful Soup-汤页

📅  最后修改于: 2020-11-09 04:50:47        🧑  作者: Mango

在前面的代码示例中,我们使用字符串方法通过漂亮的构造函数来解析文档。另一种方法是通过打开的文件句柄传递文档。首先,将文档转换为Unicode,然后将HTML实体转换为Unicode字符:</ p>输出然后,BeautifulSoup使用HTML解析器解析数据,或者您明确地告诉它使用XML解析器解析数据。HTML树结构在研究HTML页面的不同组件之前,让我们首先了解HTML树结构。文档树中的根元素是...

  Beautiful Soup-各种物品

📅  最后修改于: 2020-11-09 04:51:20        🧑  作者: Mango

当我们将html文档或字符串传递给beautifulsoup构造函数时,beautifulsoup基本上将复杂的html页面转换为不同的Python对象。下面我们将讨论四种主要的对象:标签导航字符串美丽汤评论标签对象HTML标记用于定义各种类型的内容。 BeautifulSoup中的标签对象对应于实际页面或文档中的HTML或XML标签。标签包含许多属性和方法,标签的两个重要特征是其名称和属性。名称...

  Beautiful Soup-通过标签导航

📅  最后修改于: 2020-11-09 04:52:19        🧑  作者: Mango

在本章中,我们将讨论有关“通过标签导航”的内容。以下是我们的html文档-基于上述文档,我们将尝试从文档的一部分移至另一部分。下降在任何HTML文档中,元素的重要组成部分之一是标签,其中可能包含其他标签/字符串(标签的子元素)。 Beautiful Soup提供了不同的方式来导航和遍历标签的子对象。使用标签名称导航搜索分析树的最简单方法是按其名称搜索标签。如果您想要<head>标签,请使用soup...

  Beautiful Soup-搜索树

📅  最后修改于: 2020-11-09 04:53:01        🧑  作者: Mango

有许多Beautifulsoup方法,使我们可以搜索解析树。最常用和最常用的两个方法是find()和find_all()。在讨论find()和find_all()之前,让我们看一些可以传入这些方法的不同过滤器的示例。过滤器种类我们可以将不同的过滤器传递给这些方法,对这些过滤器的理解至关重要,因为这些过滤器会在整个搜索API中一次又一次地使用。我们可以根据标签名称,属性,字符串文本或混合使用这些过滤...

  Beautiful Soup-修改树

📅  最后修改于: 2020-11-09 04:53:46        🧑  作者: Mango

BeautifulSoup的重要方面之一是搜索分析树,它使您可以根据需要对Web文档进行更改。我们可以使用标签的属性(例如.name 、.)更改标签的属性。字符串或.append()方法。它允许您借助.new_string()和.new_tag()方法将新标签和字符串添加到现有标签中。还有其他方法,例如.insert(),.insert_before()或.insert_after(),可以对HT...

  Beautiful Soup-编码

📅  最后修改于: 2020-11-09 04:54:15        🧑  作者: Mango

所有HTML或XML文档均以某种特定的编码(例如ASCII或UTF-8)编写。但是,当您将该HTML / XML文档加载到BeautifulSoup中时,它已转换为Unicode。上面的行为是因为BeautifulSoup内部使用了名为Unicode的子库,该死来检测文档的编码,然后将其转换为Unicode。但是,Dammit并不是一直都在正确地猜测。由于逐个字节地搜索文档以猜测编码,因此需要花费...

  Beautiful Soup-BeautifulSoup对象

📅  最后修改于: 2020-11-09 04:54:35        🧑  作者: Mango

任何BeautifulSoup项目的起点都是BeautifulSoup对象。 BeautifulSoup对象代表用于创建其的输入HTML / XML文档。我们可以为Beautiful Soup传递字符串或类似文件的对象,其中文件(对象)可以本地存储在我们的计算机或网页中。最常见的BeautifulSoup对象是-标签导航字符串美丽汤评论比较对象是否相等按照漂亮的汤,如果两个可导航字符串或标记对象表...

  Beautiful Soup-仅解析文档的一部分

📅  最后修改于: 2020-11-09 04:54:51        🧑  作者: Mango

在多种情况下,您想使用Beautifulsoup4提取特定类型的信息(仅<a>标记)。 Beautifulsoup中的SoupStrainer类允许您仅解析传入文档的特定部分。一种方法是创建一个SoupStrainer并将其作为parse_only参数传递给Beautifulsoup4构造函数。汤过滤器SoupStrainer告诉BeautifulSoup提取了哪些部分,而解析树仅包含这些元素。如...

  Beautiful Soup-故障排除

📅  最后修改于: 2020-11-09 04:55:28        🧑  作者: Mango

错误处理在BeautifulSoup中,需要处理两种主要的错误。这两个错误不是来自脚本,而是来自代码段的结构,因为BeautifulSoup API会引发错误。两个主要错误如下-AttributeError当点表示法找不到当前HTML标签的同级标签时,会导致此错误。例如,您可能遇到此错误,因为缺少“ anchor tag”,cost-key遍历并需要定位标记时会抛出错误。KeyError如果缺少必...

  Beautiful Soup-有用的资源

📅  最后修改于: 2020-11-09 04:55:45        🧑  作者: Mango

以下资源包含有关“美丽汤”的其他信息。请使用它们来获得有关此方面的更深入的知识。Beautiful Soup有用链接Beautiful Soup@ Wikipedia-Beautiful Soup,其历史和其他各种术语已经用简单的语言进行了解释。关于美丽汤的有用书籍要在此页面上注册您的网站,请发送电子邮件至contact@tutorialspoint.com...

  讨论Beautiful Soup

📅  最后修改于: 2020-11-09 04:55:58        🧑  作者: Mango

在本教程中,我们将向您展示如何使用Beautiful Soup 4在Python执行网络抓取,以从HTML,XML和其他标记语言中获取数据。在此,我们将尝试从各种不同的网站(包括IMDB)中抓取网页。我们将介绍漂亮的汤4,这是Python基本工具,可用于有效,清晰地导航,搜索和解析HTML网页。在本教程中,我们尝试涵盖了Beautiful Soup 4的几乎所有功能。您可以将本教程中介绍的多种功能...