📅  最后修改于: 2023-12-03 15:32:25.650000             🧑  作者: Mango
Jsoup是一个Java库,它可以通过HTML解析文档并清理HTML中的不需要的元素。使用Jsoup可以轻松清理HTML,并将其转换为规范的格式。Jsoup可以删除不必要的标签、属性和值,从而生成干净、可读的HTML。
可以通过Maven将Jsoup添加到项目中:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
Jsoup提供了许多函数和工具,可以轻松处理HTML。以下是一些示例使用方法:
String dirtyHtml = "<div><p>Some <b>dirty</b> HTML</p></div>";
String cleanHtml = Jsoup.clean(dirtyHtml, Whitelist.basic());
System.out.println(cleanHtml);
输出:
<div>
<p>Some <b>dirty</b> HTML</p>
</div>
String html = "<html><head><title>My Title</title></head>"
+ "<body><p>Paragraph 1</p><p>Paragraph 2</p></body></html>";
Document doc = Jsoup.parse(html);
Elements paragraphs = doc.select("p");
for (Element paragraph : paragraphs) {
System.out.println(paragraph.text());
}
输出:
Paragraph 1
Paragraph 2
String html = "<html><head><title>My Title</title></head>"
+ "<body><a href='http://example.com'>Example</a></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a[href]");
for (Element link : links) {
System.out.println(link.attr("href"));
}
输出:
http://example.com
Jsoup是一款强大的HTML清理器和解析器,可以轻松地将HTML转换成干净、可读的格式。它提供了许多实用的工具和函数,让开发人员轻松处理HTML。