📅  最后修改于: 2023-12-03 15:32:25.587000             🧑  作者: Mango
Jsoup是一款用于解析HTML文档的Java库,它提供了简便的API,使得从HTML文档中提取数据变得易如反掌。借助Jsoup,程序员可以轻松地从HTML文档中获取数据,并对页面进行简单的操作,比如实现爬虫、数据挖掘等。
如果想在Java项目中使用Jsoup,需要在项目的pom文件中添加以下依赖:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version>
</dependency>
此处的groupId为org.jsoup,artifactId为jsoup,版本号为1.14.3。添加了该依赖,即可在Java项目中使用Jsoup提供的API。
接下来,我们以一个简单的示例来演示如何使用Jsoup提取HTML文档中的数据。
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupExample {
public static void main(String[] args) throws IOException {
String url = "https://www.baidu.com";
Document doc = Jsoup.connect(url).get();
Elements links = doc.select("a[href]");
for (Element link : links) {
System.out.println("link : " + link.attr("href"));
System.out.println("text : " + link.text());
}
}
}
此处,我们通过Jsoup连接到百度搜索的网页,获取网页中所有的链接并输出链接的href和text。
本篇介绍了Jsoup MVN 依赖的作用,以及该库的简介和使用示例。借助Jsoup,程序员可以轻松地从HTML文档中提取数据,并且它提供了便捷的API,使得开发效率更高。