Beautiful Soup-汤页 - 芒果文档

📌 相关文章

📜 Beautiful Soup-汤页

📅 最后修改于: 2020-11-09 14:25:47 🧑 作者: Mango

在前面的代码示例中，我们使用字符串方法通过漂亮的构造函数来解析文档。另一种方法是通过打开的文件句柄传递文档。

from bs4 import BeautifulSoup
with open("example.html") as fp:
   soup = BeautifulSoup(fp)
soup = BeautifulSoup("data")

首先，将文档转换为Unicode，然后将HTML实体转换为Unicode字符：

import bs4
html = '''tutorialspoint, &web scraping &data science;'''
soup = bs4.BeautifulSoup(html, 'lxml')
print(soup)

输出

tutorialspoint, &web scraping &data science;

然后，BeautifulSoup使用HTML解析器解析数据，或者您明确地告诉它使用XML解析器解析数据。

在研究HTML页面的不同组件之前，让我们首先了解HTML树结构。

HTML树结构

文档树中的根元素是html，它可以具有父元素，子元素和兄弟姐妹，这取决于其在树结构中的位置。要在HTML元素，属性和文本之间移动，您必须在树结构的节点之间移动。

让我们假设该网页如下所示-

Tutorialspoint在线图书馆

转换为html文档如下-

TutorialsPointTutorialspoint Online Library
It's all Free

简单来说，对于上述html文档，我们具有html树结构，如下所示-

HTML文件