📜  jsoup-清理HTML(1)

📅  最后修改于: 2023-12-03 15:32:25.650000             🧑  作者: Mango

Jsoup-清理HTML

介绍

Jsoup是一个Java库,它可以通过HTML解析文档并清理HTML中的不需要的元素。使用Jsoup可以轻松清理HTML,并将其转换为规范的格式。Jsoup可以删除不必要的标签、属性和值,从而生成干净、可读的HTML。

安装

可以通过Maven将Jsoup添加到项目中:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>
用法

Jsoup提供了许多函数和工具,可以轻松处理HTML。以下是一些示例使用方法:

清理HTML并输出为字符串
String dirtyHtml = "<div><p>Some <b>dirty</b> HTML</p></div>";
String cleanHtml = Jsoup.clean(dirtyHtml, Whitelist.basic());
System.out.println(cleanHtml);

输出:

<div>
 <p>Some <b>dirty</b> HTML</p>
</div>
通过选择器获取HTML文档中的元素
String html = "<html><head><title>My Title</title></head>"
           + "<body><p>Paragraph 1</p><p>Paragraph 2</p></body></html>";
Document doc = Jsoup.parse(html);

Elements paragraphs = doc.select("p");

for (Element paragraph : paragraphs) {
    System.out.println(paragraph.text());
}

输出:

Paragraph 1
Paragraph 2
获取HTML文档中的所有链接
String html = "<html><head><title>My Title</title></head>"
           + "<body><a href='http://example.com'>Example</a></body></html>";
Document doc = Jsoup.parse(html);

Elements links = doc.select("a[href]");

for (Element link : links) {
    System.out.println(link.attr("href"));
}

输出:

http://example.com
总结

Jsoup是一款强大的HTML清理器和解析器,可以轻松地将HTML转换成干净、可读的格式。它提供了许多实用的工具和函数,让开发人员轻松处理HTML。