📜  R 编程中的 dplyr 包(1)

📅  最后修改于: 2023-12-03 15:19:40.839000             🧑  作者: Mango

R 编程中的 dplyr 包

介绍

dplyr 是一款 R 语言的包,用于数据清洗和转换。它基于 Hadley Wickham 的 plyr 包,主要通过提高计算效率和代码可读性的方式,为数据操作提供了更加一致的界面。

安装

dplyr 包并不随 R 安装而自带,你需要自己手动安装。你可以通过以下命令在 R 中安装 dplyr:

install.packages("dplyr")
基本操作

dplyr 包提供了丰富的操作函数,以下是其中一些常用的函数。

filter()

filter() 函数用于筛选行。以下代码将从名为“iris”的数据集中选出所有萼片长度(Sepal.Length)大于 5 的行:

library(dplyr)
data(iris)
iris_filtered <- filter(iris, Sepal.Length > 5)
select()

select() 函数用于选取列。以下代码将从名为“iris”的数据集中选出萼片长度(Sepal.Length)和宽度(Sepal.Width)两列:

iris_selected <- select(iris, Sepal.Length, Sepal.Width)
mutate()

mutate() 函数用于创建新列。以下代码将名为“iris”的数据集中的萼片长度(Sepal.Length)转换为以厘米为单位:

iris_mutated <- mutate(iris, Sepal.Length = Sepal.Length * 2.54)
summarize()

summarize() 函数用于进行聚合计算。以下代码将名为“iris”的数据集中的花瓣长度(Petal.Length)和宽度(Petal.Width)进行均值计算:

iris_summarized <- summarize(iris, mean_petal_length = mean(Petal.Length),
                             mean_petal_width = mean(Petal.Width))
arrange()

arrange() 函数用于排序。以下代码将名为“iris”的数据集中的萼片长度(Sepal.Length)按升序排序:

iris_arranged <- arrange(iris, Sepal.Length)
总结

本文介绍了 R 编程中的 dplyr 包,包括安装方法和基本操作函数。dplyr 包提供了方便快捷的数据清洗和转换方法,使得数据操作变得更加高效易读。希望本文能对你有所帮助。