📅  最后修改于: 2023-12-03 15:19:40.839000             🧑  作者: Mango
dplyr 是一款 R 语言的包,用于数据清洗和转换。它基于 Hadley Wickham 的 plyr 包,主要通过提高计算效率和代码可读性的方式,为数据操作提供了更加一致的界面。
dplyr 包并不随 R 安装而自带,你需要自己手动安装。你可以通过以下命令在 R 中安装 dplyr:
install.packages("dplyr")
dplyr 包提供了丰富的操作函数,以下是其中一些常用的函数。
filter() 函数用于筛选行。以下代码将从名为“iris”的数据集中选出所有萼片长度(Sepal.Length)大于 5 的行:
library(dplyr)
data(iris)
iris_filtered <- filter(iris, Sepal.Length > 5)
select() 函数用于选取列。以下代码将从名为“iris”的数据集中选出萼片长度(Sepal.Length)和宽度(Sepal.Width)两列:
iris_selected <- select(iris, Sepal.Length, Sepal.Width)
mutate() 函数用于创建新列。以下代码将名为“iris”的数据集中的萼片长度(Sepal.Length)转换为以厘米为单位:
iris_mutated <- mutate(iris, Sepal.Length = Sepal.Length * 2.54)
summarize() 函数用于进行聚合计算。以下代码将名为“iris”的数据集中的花瓣长度(Petal.Length)和宽度(Petal.Width)进行均值计算:
iris_summarized <- summarize(iris, mean_petal_length = mean(Petal.Length),
mean_petal_width = mean(Petal.Width))
arrange() 函数用于排序。以下代码将名为“iris”的数据集中的萼片长度(Sepal.Length)按升序排序:
iris_arranged <- arrange(iris, Sepal.Length)
本文介绍了 R 编程中的 dplyr 包,包括安装方法和基本操作函数。dplyr 包提供了方便快捷的数据清洗和转换方法,使得数据操作变得更加高效易读。希望本文能对你有所帮助。