📅  最后修改于: 2023-12-03 15:32:25.601000             🧑  作者: Mango
如果你是一位Java程序员,输出HTML标记到终端或按照某些规则筛选出其中的内容,是一个常见的需求。这时,你可以使用Java的一个开源库——Jsoup。它是一个HTML解析器,可以很方便地选择HTML元素,设置属性、元素文本等等。
在本文中,我们将介绍如何使用Jsoup解析URL。具体来说,我们将访问一个网页,然后用Jsoup选择该网页的元素,并输出其中的文本内容。
使用Maven构建项目时,只需在pom.xml
文件中添加以下依赖:
<dependencies>
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version>
</dependency>
</dependencies>
我们将访问一个网络日报的网站,如下图所示。
接下来,我们将编写一个程序来解析此URL。请注意,由于这是向互联网发送请求,因此您需要确保与Internet连接相连,否则程序会抛出异常。
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class GetContentFromUrl {
public static void main(String[] args) throws IOException {
String url = "https://daily.zhihu.com/";
Document document = Jsoup.connect(url).get();
//选择文章标题
Elements elements = document.select("div.main-content-wrap div.zh-general-list div.info-wrap h2.title");
for (Element element : elements) {
System.out.println(element.text());
}
}
}
代码说明:
首先,我们定义一个url
字符串表示要访问的网页地址。
Jsoup.connect(url).get()
方法将与url建立连接并获取文档对象。
将元素作为选择器的select()
方法可以选择一个或多个HTML标记。在本例中,我们选择了包含文章标题的元素。
最后,使用.text()
方法输出元素的文本内容。
运行程序后,您将看到类似以下的输出:
“国人支付”背后的三个阶段
美国将游戏主机进口关税从25%降至10%
开发者赛道日报 | 商汤科技发布SAR系统,SenseTime新一轮融资
在本文中,我们介绍了如何使用Jsoup解析URL。我们为您提供了一个示例网站,并演示了如何选择元素以输出其文本内容。Jsoup强大的HTML解析工具使Java程序员可以快速轻松地从HTML内容中提取所需信息。