📅  最后修改于: 2023-12-03 15:32:25.662000             🧑  作者: Mango
JSoup是一个用于解析HTML文档的Java库。它能够将HTML文档转换成DOM树,并提供了一些方便的方法来查找、遍历DOM树中的元素。
在本文中,我们将探讨如何使用JSoup解析一个HTML文档中的正文。
首先,我们需要获取HTML文档。我们可以使用Java中提供的URL和URLConnection来实现。以下是一个例子:
URL url = new URL("http://example.com");
URLConnection con = url.openConnection();
InputStream is = con.getInputStream();
以上代码打开了一个连接到http://example.com
的URL,并获取了输入流。
接下来,我们需要使用JSoup解析HTML文档。以下是一个使用JSoup解析HTML文档的例子:
Document doc = Jsoup.parse(is, "UTF-8", "http://example.com");
以上代码使用JSoup将输入流解析为一个Document
对象。Jsoup.parse()
方法的第一个参数是输入流,第二个参数是HTML文档的字符编码,第三个参数是HTML文档的URL。
有了Document
对象,我们就可以使用JSoup提供的方法来获取HTML文档中的正文了。以下是一个获取HTML文档中的正文的例子:
Element body = doc.body();
String text = body.text();
以上代码中,doc.body()
方法返回HTML文档中的<body>
元素。body.text()
方法返回<body>
元素中的文本。
以下是本文所述的完整代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
public class Main {
public static void main(String[] args) throws Exception {
URL url = new URL("http://example.com");
URLConnection con = url.openConnection();
InputStream is = con.getInputStream();
Document doc = Jsoup.parse(is, "UTF-8", "http://example.com");
Element body = doc.body();
String text = body.text();
System.out.println(text);
}
}
URL url = new URL("http://example.com");
URLConnection con = url.openConnection();
InputStream is = con.getInputStream();
Document doc = Jsoup.parse(is, "UTF-8", "http://example.com");
Element body = doc.body();
String text = body.text();