📅  最后修改于: 2023-12-03 14:39:35.847000             🧑  作者: Mango
使用bs4库可以轻松地从HTML文档中提取并解析数据,例如从脚本标签中获取文本。
在使用bs4库之前,需要先将其安装到Python环境中。可以使用以下命令在终端中安装:
pip install beautifulsoup4
使用BeautifulSoup对象可以解析HTML文档,并从中提取所需的数据。以下是一个简单的示例:
from bs4 import BeautifulSoup
html_doc = """
<html>
<head>
<title>Example</title>
</head>
<body>
<p>This is an example.</p>
<script>
var x = 2;
var y = 3;
var z = x + y;
</script>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
script = soup.find('script')
text = script.get_text()
print(text)
上述代码中,我们创建了一个包含脚本标签的HTML文档,并使用BeautifulSoup对象解析了它。然后,我们使用find方法找到了其中的脚本标签,并使用get_text方法获取了脚本标签中的文本。打印结果为:
var x = 2;
var y = 3;
var z = x + y;
使用bs4库可以轻松地从HTML文档中提取数据。通过使用BeautifulSoup对象,可以方便地查找和提取特定的标签,如脚本标签中的文本。