📜  Beautiful Soup教程

📅  最后修改于: 2020-11-09 14:21:35             🧑  作者: Mango

Beautiful Soup教程

在本教程中,我们将向您展示如何使用Beautiful Soup 4在Python执行网络抓取,以从HTML,XML和其他标记语言中获取数据。在此,我们将尝试从各种不同的网站(包括IMDB)中抓取网页。我们将介绍漂亮的汤4,这是Python基本工具,可用于有效,清晰地导航,搜索和解析HTML网页。在本教程中,我们尝试涵盖了Beautiful Soup 4的几乎所有功能。您可以将本教程中介绍的多种功能组合到一个更大的程序中,以将网站中的多个有意义的数据捕获为其他子程序作为输入。

本教程的基本目的是指导您创建网页。所有这些的基本要求是从庞大的无组织数据集中获取有意义的数据。本教程的目标读者可以是以下任何一个:

  • 任何想知道的人-如何使用BeautifulSoup 4在Python抓取网页。
  • 任何数据科学开发人员/爱好者或任何人,想如何将这些经过抓取的(有意义的)数据用于不同的Python数据科学库,以做出更好的决策。

先决条件

尽管本教程没有强制性要求。但是,如果您对以下提到的任何技术有任何或所有(过冷)先验知识,那么这将是一个额外的优势-

  • 了解任何与网络相关的技术(HTML / CSS /文档对象模型等)。
  • Python语言(因为它是Python软件包)。
  • 具备任何语言刮刮知识的开发人员。
  • 基本了解HTML树结构。