📜  jsoup-使用URL(1)

📅  最后修改于: 2023-12-03 15:32:25.601000             🧑  作者: Mango

使用Jsoup解析URL

如果你是一位Java程序员,输出HTML标记到终端或按照某些规则筛选出其中的内容,是一个常见的需求。这时,你可以使用Java的一个开源库——Jsoup。它是一个HTML解析器,可以很方便地选择HTML元素,设置属性、元素文本等等。

在本文中,我们将介绍如何使用Jsoup解析URL。具体来说,我们将访问一个网页,然后用Jsoup选择该网页的元素,并输出其中的文本内容。

导入Jsoup

使用Maven构建项目时,只需在pom.xml文件中添加以下依赖:

<dependencies>
	<dependency>
  		<groupId>org.jsoup</groupId>
  		<artifactId>jsoup</artifactId>
  		<version>1.14.3</version>
	</dependency>
</dependencies>
样例网页

我们将访问一个网络日报的网站,如下图所示。

DailyZhihu

解析URL

接下来,我们将编写一个程序来解析此URL。请注意,由于这是向互联网发送请求,因此您需要确保与Internet连接相连,否则程序会抛出异常。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public class GetContentFromUrl {
    public static void main(String[] args) throws IOException {
        String url = "https://daily.zhihu.com/";

        Document document = Jsoup.connect(url).get();
        //选择文章标题
        Elements elements = document.select("div.main-content-wrap div.zh-general-list div.info-wrap h2.title");
        for (Element element : elements) {
            System.out.println(element.text());
        }
    }
}

代码说明:

  1. 首先,我们定义一个url字符串表示要访问的网页地址。

  2. Jsoup.connect(url).get()方法将与url建立连接并获取文档对象。

  3. 将元素作为选择器的select()方法可以选择一个或多个HTML标记。在本例中,我们选择了包含文章标题的元素。

  4. 最后,使用.text()方法输出元素的文本内容。

运行程序后,您将看到类似以下的输出:

“国人支付”背后的三个阶段
美国将游戏主机进口关税从25%降至10%
开发者赛道日报 | 商汤科技发布SAR系统,SenseTime新一轮融资
总结

在本文中,我们介绍了如何使用Jsoup解析URL。我们为您提供了一个示例网站,并演示了如何选择元素以输出其文本内容。Jsoup强大的HTML解析工具使Java程序员可以快速轻松地从HTML内容中提取所需信息。