📜  R语言中的Tidyverse包是什么?

📅  最后修改于: 2021-10-22 03:19:01             🧑  作者: Mango

R 中处理数据科学时,Tidyverse 包是您最好的朋友!这些 Tidyverse 包是专门为数据科学设计的,具有共同的设计理念。它们包括数据科学工作流中所需的所有包,从数据探索到数据可视化。例如,readr 用于数据导入,tibble 和 tidyr 帮助整理数据,dplyr 和 stringr 有助于数据转换,ggplot2 对数据可视化至关重要。

什么是 R 语言中的 Tidyverse 软件包

本文提到了八个核心 Tidyverse 包,分别是ggplot2、dplyr、tidyr、readr、purrr、tibble、stringrforcats 。所有这些包都会使用 install.packages(“tidyverse”) 命令一次自动加载。除了这些包,Tidyverse还有一些专门的包,不是自动加载而是需要自己调用的。其中包括关系数据库的 DBI。 httr 用于 Web API,rvest 用于 Web 抓取等。现在,让我们看看核心 Tidyverse 包并了解有关它们的更多信息!

1. ggplot2

ggplot2 是一个基于 The Grammar of Graphics 的 R 数据可视化库。 ggplot2 可以使用高级 API 创建数据可视化,例如条形图、饼图、直方图、散点图、错误图等。它还允许您在单个可视化中添加不同类型的数据可视化组件或层。一旦 ggplot2 被告知将哪些变量映射到绘图中的哪些美学,它就会完成其余的工作,以便用户可以专注于解释可视化并减少创建它们的时间。但这也意味着无法在 ggplot2 中创建高度自定义的图形。但是 RStudio 社区和 Stack Overflow 中有很多资源可以在需要时在 ggplot2 中提供帮助。如果要安装 ggplot2,最好的方法是使用install.packages(“tidyverse”)安装 tidyverse。或者您可以使用install.packages(“ggplot2”)安装 ggplot2。您还可以使用devtools::install_github(“tidyverse/ggplot2”)从 GitHub 安装开发版本

2. dplyr

dplyr 是 R 中非常流行的数据操作库。它有五个重要的函数,这些函数与 group_by()函数自然结合,可以帮助在组中执行这些函数。这些函数包括可以添加作为现有变量函数的新变量的 mutate()函数、根据变量名称选择变量的 select()函数、根据变量值选择变量的 filter()函数、summarise()函数降低多个值成摘要,和安排()函数,自编排列的行排序。如果要安装 dplyr,最好的方法是使用install.packages(“tidyverse”)安装 tidyverse。或者您可以使用install.packages(“dplyr”)安装 dplyr。您还可以使用devtools::install_github(“tidyverse/dplyr”)从 GitHub 安装开发版本

3.整理

tidyr 是 R 中的数据清理库,有助于创建整洁的数据。整洁的数据意味着所有数据单元格都有一个值,每个数据列都是一个变量,数据行是一个观察值。这种整洁的数据是 tidyverse 的主要组成部分,它确保将更多的时间花在数据分析和从数据中获取价值上,而不是不断地清理数据和修改工具来处理不整洁的数据。 tidyr 中的功能大致分为五类,即 Pivoting 在长格式和宽格式之间更改数据,Nesting 将分组数据更改为具有嵌套数据框的单行,拆分字符列然后组合它们,Rectangling它将嵌套列表转换为整洁的小标题并将隐式缺失值转换为显式值。如果要安装 tidyr,最好的方法是使用install.packages(“tidyverse”)安装 tidyverse。或者您可以使用install.packages(“tidyr”)安装 tidyr。您还可以使用devtools::install_github(“tidyverse/tidyr”)从 GitHub 安装开发版本

4. 读者

readr 是一个库,它提供了一种简单快速的方法来读取矩形数据,例如文件格式 tsv、csv、delim、fwf 等。readr 可以使用解析整个文件的函数来解析许多不同类型的数据,而另一个则是专注于特定的列。此列规范定义了将列中的数据从字符向量转换为最适合的数据类型的方法。在大多数情况下,这是由 readr 自动完成的。 readr 可以使用不同的函数读取不同类型的文件格式,即 read_csv() 用于逗号分隔文件,read_tsv() 用于制表符分隔文件,read_table() 用于表格文件,read_fwf() 用于固定宽度文件,read_delim()对于分隔文件,read_log() 用于网络日志文件。如果要安装 readr,最好的方法是使用install.packages(“tidyverse”)安装 tidyverse。或者您可以使用install.packages(“readr”)安装 readr。您还可以使用devtools::install_github(“tidyverse/readr”)从 GitHub 安装开发版本

5. 咕噜噜

purrr 是一组详细的函数和向量工具,主要用于管理 R 中的函数式编程。一个很好的例子是 map() 函数,用于替换使代码复杂化和混乱的多个 for 循环inro 更简单的代码,易于阅读。除此之外,所有 purrr 函数都是类型稳定的,这意味着它们要么返回通告的输出类型,如果不可能,则给出错误。如果要安装purrr,最好的方法是使用install.packages(“tidyverse”)安装tidyverse 或者您可以使用install.packages(“purrr”)安装 purrr。您还可以使用devtools::install_github(“tidyverse/purrr”)从 GitHub 安装开发版本

6. 小费

tibble 是 data.frame 的一种形式,它包括有用的部分并丢弃不那么重要的部分。因此 tibbles 不会像 data.frames 那样更改变量名称或类型,也不会进行部分匹配,但是它们会更快地将问题带到最前沿,例如当变量不存在时。因此,带有 tibbles 的代码比以前更干净和有效。 Tibbles 也更容易与包含更复杂对象的更大数据集一起使用,部分是在增强的 print() 方法之前。您可以使用tibble()函数列向量创建新tibbles,你还可以创建一个tibble一行一行地使用符段()函数。如果要安装 tibble,最好的方法是使用install.packages(“tidyverse”)安装 tidyverse。或者你可以使用install.packages(“tibble”)安装 tibble。您还可以使用devtools::install_github(“tidyverse/tibble”)从 GitHub 安装开发版本

7. 纵梁

stringr 是一个库,有很多用于数据清理和数据准备任务的函数。它还专为处理字符串而设计,并具有许多使此过程变得简单的功能。 stringr 建立在 stringi 之上,stringi 是 Unicode C 库的国际组件。因此,如果您想使用任何函数但在 stringr 中找不到,那么查找它们的最佳位置是 stringi。这也意味着一旦你掌握了 stringr,stringi 就不难使用了,因为这两个包都有相似的约定。 stringr 中的所有函数都以 str 开头,它们以字符串向量作为第一个参数。其中一些函数包括str_detect()、str_extract()、str_match()、str_count()、str_replace()、str_subset()等。 如果要安装stringr,最好的方法是使用install.packages安装tidyverse (“tidyverse”) 。或者您可以使用install.packages(“stringr”)从 CRAN 安装 stringr。您还可以使用devtools::install_github(“tidyverse/stringr”)从 GitHub 安装开发版本

8. forcats

forcats 是一个 R 库,它关注处理与向量相关的问题。这些向量是具有一组固定的可能值的变量,它们可以采用预先已知的值。因此 forecats 处理诸如更改向量中值的顺序、重新排序向量等问题。 forcats 中的一些函数是 fct_relevel() 手动重新排序向量,fct_reorder() 使用另一个变量重新排序因子 fct_infreq( ) 按频率值等对因子重新排序。如果要安装 forcats,最好的方法是使用install.packages(“tidyverse”)安装 tidyverse。或者你可以使用install.packages(“forcats”)安装 forcats。您还可以使用devtools::install_github(“tidyverse/forcats”)从 GitHub 安装开发版本