标记对象 - Python Beautifulsoup
Tag对象由 Beautiful Soup 提供,它是Python的网络抓取框架。网页抓取是使用自动化工具从网站中提取数据以加快处理速度的过程。标记对象对应于原始文档中的一个 XML 或 HTML 标记。此外,此对象通常用于从整个 HTML 文档中提取标签。此外,Beautiful Soup 不是 HTTP 客户端,这意味着要抓取在线网站,您首先必须使用 requests 模块下载它们,然后将其提供给Beautiful Soup进行抓取。此外,如果您的文档有多个同名标签,此对象将返回第一个找到的标签。
先决条件:美汤安装
句法:
Object.tag_name
参数:此函数不接受任何参数。
下面给出的例子解释了 Beautiful Soup 中 Tag 对象的概念。
示例 1:在此示例中,我们将仅提取h1标记元素。
# Import Beautiful Soup
from bs4 import BeautifulSoup
# Initialize the object with an HTML page
soup = BeautifulSoup('''
a web page
''', "lxml")
# Get the tag
tag = soup.h1
# Print the output
print(tag)
输出:
a web page
示例 2:在此示例中,我们将仅查看强标签元素的类型。
# Import Beautiful Soup
from bs4 import BeautifulSoup
# Initialize the object with an HTML page
soup = BeautifulSoup('''
a web page
''', "lxml")
# Get the tag
tag = soup.strong
# Print the output
print(type(tag))
输出:
示例 3:在此示例中,我们将看到带有多个标签的 HTML 的输出。
# Import Beautiful Soup
from bs4 import BeautifulSoup
# Initialize the object with a HTML page
soup = BeautifulSoup('''
the first strong tag
Heading
the second strong tag
''', "lxml")
# Get the tag
tag = soup.strong
# Print the output
print(tag)
输出:
the first strong tag