HTML 清理和实体转换 | Python
网络上非常重要且总是被忽视的任务是文本的清理。每当想解析 HTML 时,总是避免嵌入 Javascript 和 CSS。用户只对网络服务器上的标签和文本感兴趣。
lxml
安装——
它是 C 库的Python绑定 - libxslt和libxml2 。所以维护一个Python基础,它是非常快速的 HTML 解析和 XML 库。为了让它工作——还需要安装 C 库。链接 - http://lxml.de/installation.html将提供所有安装说明。
sudo apt-get install python-lxml or
pip install lxml
使用lxml.html.clean
模块中的clean_html()
函数执行清理任务。此函数删除不必要的 HTML 标签。在下面的代码中, lxml.html.clean
模块中的clean_html()
函数用于从 HTML字符串中删除不必要的 HTML 标记和嵌入的 JavaScript。
代码——文本的清理
import lxml.html.clean
lxml.html.clean.clean_html('
my text