📅  最后修改于: 2023-12-03 15:21:54.811000             🧑  作者: Mango
在使用R语言处理网页数据时,往往需要从HTML中提取出其中的列表元素。以下是一些方法供您参考。
代码如下:
library(rvest)
url <- "http://www.example.com"
html <- read_html(url)
list_items <- html_nodes(html, "li")
list_text <- html_text(list_items)
read_html
函数将HTML抓取到R中。html_nodes
函数获取列表元素节点,并将其存储在list_items
变量中。html_text
函数将list_items
中的文本提取出来,并将结果存储在list_text
变量中。代码如下:
library(XML)
url <- "http://www.example.com"
html <- htmlParse(url)
list_items <- getNodeSet(html, "//li")
list_text <- sapply(list_items, xmlValue)
htmlParse
函数将HTML抓取到R中。getNodeSet
函数获取列表元素节点,并将其存储在list_items
变量中。sapply
函数将list_items
中的文本提取出来,并将结果存储在list_text
变量中。以上两种方法都能够从HTML中提取出所有列表元素的文本。
注意:在实际使用时,可能需要针对具体的网页进行适当调整。