📅  最后修改于: 2023-12-03 14:49:45.997000             🧑  作者: Mango
本文将介绍如何使用 R 语言从网页中提取所有 URL。这在网络爬虫和数据分析中非常常见,可以帮助我们从各种网站中收集数据。我们将介绍使用 rvest
包在 R 中提取 URL 的方法。
rvest
第一步是安装 rvest
包。您可以使用以下命令在 R 中完成安装:
install.packages("rvest")
假设我们要从 Google 的首页提取所有链接。我们可以使用以下代码完成:
library(rvest)
url <- "https://www.google.com/"
html <- read_html(url)
links <- html %>%
html_nodes("a") %>%
html_attr("href")
links
我们首先将 rvest
包导入 R。然后指定 URL 并使用 read_html()
函数将 HTML 内容读取到变量 html
中。接着,我们使用 html_nodes()
函数和 CSS 选择器 a
来选择所有 a
标签,然后使用 html_attr()
函数和属性名称 href
来提取所有链接。最后,我们将链接存储在变量 links
中并将其打印出来。
如果要将链接保存到文件中,可以使用以下代码:
write.csv(links, file = "links.csv")
这将链接保存为 CSV 文件 links.csv
。
在本文中,我们介绍了如何使用 R 语言从网页中提取所有 URL。我们使用 rvest
包来选择所有 a
标签并提取它们的 href
属性。这是一个有用的技能,可以帮助我们从网站中收集数据。