📅  最后修改于: 2023-12-03 15:22:10.970000             🧑  作者: Mango
Dplyr 是一个流行的 R 包,优化了对数据框的数据处理。它提供了多种选取变量的方法,本文介绍其中一些常用的方法。
首先需要安装和加载 Dplyr 包。
install.packages("dplyr") # 安装包
library(dplyr) # 加载包
本文我们使用的数据框如下:
data <- data.frame(name = c("Tom", "Jerry", "Mike", "John"),
age = c(25, 32, 20, 27),
city = c("Beijing", "New York", "Paris", "Tokyo"))
它长这样:
| name | age | city | |------|-----|------------| | Tom | 25 | Beijing | | Jerry| 32 | New York | | Mike | 20 | Paris | | John | 27 | Tokyo |
使用 select()
函数可以选择列。select()
函数有两种指定列的方法:一种是用列名,另一种是用列位置。
使用列名来选择列,有两种方式:一种是用 .
号,一种是用字符串。
# 用 . 号
data %>% select(name, age)
# 用字符串
data %>% select("name", "age")
输出:
| name | age | |------|-----| | Tom | 25 | | Jerry| 32 | | Mike | 20 | | John | 27 |
使用列位置选择列也有两种方式:一种是用 :
号来选取一段位置间的所有列,另一种是用 c()
函数自己选择位置。
# 选择第1~2列
data %>% select(1:2)
# 选择第1, 3列
data %>% select(c(1, 3))
输出:
| name | city | |------|------------| | Tom | Beijing | | Jerry| New York | | Mike | Paris | | John | Tokyo |
使用 rename()
函数可以对数据框的列进行重命名。
data %>% rename(full_name=name)
输出:
| full_name | age | city | |-----------|-----|------------| | Tom | 25 | Beijing | | Jerry | 32 | New York | | Mike | 20 | Paris | | John | 27 | Tokyo |