📜  bs4 从脚本标签获取文本 (1)

📅  最后修改于: 2023-12-03 14:39:35.847000             🧑  作者: Mango

使用bs4从脚本标签获取文本

使用bs4库可以轻松地从HTML文档中提取并解析数据,例如从脚本标签中获取文本。

安装bs4库

在使用bs4库之前,需要先将其安装到Python环境中。可以使用以下命令在终端中安装:

pip install beautifulsoup4
使用BeautifulSoup对象

使用BeautifulSoup对象可以解析HTML文档,并从中提取所需的数据。以下是一个简单的示例:

from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
    <title>Example</title>
</head>
<body>
    <p>This is an example.</p>
    <script>
        var x = 2;
        var y = 3;
        var z = x + y;
    </script>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
script = soup.find('script')
text = script.get_text()
print(text)

上述代码中,我们创建了一个包含脚本标签的HTML文档,并使用BeautifulSoup对象解析了它。然后,我们使用find方法找到了其中的脚本标签,并使用get_text方法获取了脚本标签中的文本。打印结果为:

var x = 2;
var y = 3;
var z = x + y;
总结

使用bs4库可以轻松地从HTML文档中提取数据。通过使用BeautifulSoup对象,可以方便地查找和提取特定的标签,如脚本标签中的文本。