📜  jsoup-解析正文(1)

📅  最后修改于: 2023-12-03 15:32:25.662000             🧑  作者: Mango

使用JSoup解析正文

JSoup是一个用于解析HTML文档的Java库。它能够将HTML文档转换成DOM树,并提供了一些方便的方法来查找、遍历DOM树中的元素。

在本文中,我们将探讨如何使用JSoup解析一个HTML文档中的正文。

获取HTML文档

首先,我们需要获取HTML文档。我们可以使用Java中提供的URL和URLConnection来实现。以下是一个例子:

URL url = new URL("http://example.com");
URLConnection con = url.openConnection();
InputStream is = con.getInputStream();

以上代码打开了一个连接到http://example.com的URL,并获取了输入流。

使用JSoup解析HTML文档

接下来,我们需要使用JSoup解析HTML文档。以下是一个使用JSoup解析HTML文档的例子:

Document doc = Jsoup.parse(is, "UTF-8", "http://example.com");

以上代码使用JSoup将输入流解析为一个Document对象。Jsoup.parse()方法的第一个参数是输入流,第二个参数是HTML文档的字符编码,第三个参数是HTML文档的URL。

获取正文

有了Document对象,我们就可以使用JSoup提供的方法来获取HTML文档中的正文了。以下是一个获取HTML文档中的正文的例子:

Element body = doc.body();
String text = body.text();

以上代码中,doc.body()方法返回HTML文档中的<body>元素。body.text()方法返回<body>元素中的文本。

完整代码

以下是本文所述的完整代码:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;

public class Main {
    public static void main(String[] args) throws Exception {
        URL url = new URL("http://example.com");
        URLConnection con = url.openConnection();
        InputStream is = con.getInputStream();

        Document doc = Jsoup.parse(is, "UTF-8", "http://example.com");

        Element body = doc.body();
        String text = body.text();
        System.out.println(text);
    }
}
Markdown代码片段
URL url = new URL("http://example.com");
URLConnection con = url.openConnection();
InputStream is = con.getInputStream();

Document doc = Jsoup.parse(is, "UTF-8", "http://example.com");

Element body = doc.body();
String text = body.text();