📅  最后修改于: 2023-12-03 15:39:51.225000             🧑  作者: Mango
在 R 编程语言中,我们经常需要从网页中获取数据。其中最常见的任务是从网页中提取超链接。本文将介绍如何在 R 中使用 rvest
包提取超链接。
安装 rvest
包
在 R 中安装 rvest
包可以使用以下命令:
install.packages("rvest")
从网页中获取 HTML 内容
使用 read_html()
函数读取并解析网页。例如,以下代码获取百度首页的 HTML 内容:
library(rvest)
url <- "https://www.baidu.com/"
html <- read_html(url)
提取超链接
使用 html_nodes()
函数选择包含超链接的节点,并使用 html_attr()
函数提取超链接。例如,以下代码提取百度首页的所有超链接:
links <- html_nodes(html, "a")
hrefs <- html_attr(links, "href")
在这里,html_nodes()
函数选择了所有的 <a>
元素,html_attr()
函数提取了这些元素的 href
属性。你可以选择不同的元素和属性来提取你需要的超链接。
结果
最后,我们将提取到的超链接列表输出到控制台。
cat("超链接列表:\n")
cat(hrefs, sep = "\n")
输出结果应该如下所示:
超链接列表:
https://www.baidu.com/gaoji/preferences.html
http://www.baidu.com/duty/
http://jianyi.baidu.com/
...
使用 rvest
包从网页中提取超链接非常简单。只需要使用 html_nodes()
函数选择包含超链接的元素,再使用 html_attr()
函数提取超链接的属性即可。使用上述代码,你可以从任何网页中提取超链接,并将它们用于自己的项目中。