📜  使用 BeautifulSoup 删除所有样式、脚本和 HTML 标签(1)

📅  最后修改于: 2023-12-03 15:06:45.280000             🧑  作者: Mango

使用 BeautifulSoup 删除所有样式、脚本和 HTML 标签

如果您在处理HTML文本时需要删除所有样式、脚本和HTML标签,可以使用Python的BeautifulSoup库。

BeautifulSoup是一个Python解析HTML和XML文件的库。 它可以将HTML和XML转换成Python对象树,然后你就可以使用Python来解析、修改和遍历它。

以下是一个使用BeautifulSoup删除所有样式、脚本和HTML标签的示例程序:

from bs4 import BeautifulSoup

# HTML文本
html_doc = """
<!DOCTYPE html>
<html>
<head>
	<title>Example Website</title>
	<style>
		body {
			background-color: #f2f2f2;
		}
	</style>
</head>
<body>

	<h1>Example Website</h1>

	<p>This is an example website.</p>

	<script>
		alert("Hello World!");
	</script>
	
</body>
</html>
"""

# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')

# 删除样式标签
for style in soup(["style", "script"]):
    style.decompose()

# 删除所有HTML标签
text = soup.get_text()

# 输出纯文本
print(text)

输出结果:

Example Website

This is an example website.

在上面的代码中,我们首先创建了一个BeautifulSoup对象,然后使用decompose()方法删除所有的样式和脚本标签。

然后,我们从BeautifulSoup对象中获取纯文本,其中所有的HTML标签都已删除。最后,我们打印了纯文本结果。

这里使用了html.parser解析器,还可以使用其他解析器,例如lxml、html5lib等。

综上所述,使用BeautifulSoup库可以轻松删除所有样式、脚本和HTML标签,这对于处理HTML文本非常方便。