说到数据科学,不能不说R。事实上,可以说R是数据科学最好的语言,因为它是由统计学家为统计学家开发的!它也非常受欢迎(尽管来自Python 的激烈竞争!),拥有活跃的社区和许多当前可用的尖端库。
事实上,有许多 R 库包含大量用于管理和分析数据的函数、工具和方法。这些库中的每一个都有一个特别的重点,其中一些库管理图像和文本数据、数据操作、数据可视化、网络爬虫、机器学习等。这里我们有数据科学的前 10 个 R 库,现在让我们来看看吧!
1. dplyr
dplyr 是 R 中非常流行的数据操作库。它有五个重要的函数,这些函数与 group_by()函数自然结合,可以帮助在组中执行这些函数。这些函数包括可以添加作为现有变量函数的新变量的 mutate()函数、根据变量名称选择变量的 select()函数、根据变量值选择变量的 filter()函数、summarise()函数降低多个值成摘要,和安排()函数,自编排列的行排序。如果要安装 dplyr,最好的方法是安装 tidyverse,它是专门为数据科学创建的 R 包的集合。或者您可以使用install.packages(“dplyr”)安装 dplyr。
2. ggplot2
ggplot2 是一个基于 The Grammar of Graphics 的 R 数据可视化库。 ggplot2 可以使用高级 API 创建数据可视化,例如条形图、饼图、直方图、散点图、错误图等。它还允许您在单个可视化中添加不同类型的数据可视化组件或层。一旦 ggplot2 被告知将哪些变量映射到绘图中的哪些美学,它就会完成其余的工作,以便用户可以专注于解释可视化并减少创建它们的时间。但这也意味着无法在 ggplot2 中创建高度自定义的图形。但是 RStudio 社区和 Stack Overflow 中有很多资源可以在需要时在 ggplot2 中提供帮助。就像 dplyr 一样,如果你想安装 ggplot2,你可以安装 tidyverse 或者你可以使用install.packages(“ggplot2”)安装 ggplot2
3. 优雅
Esquisse 是 R 中的数据可视化工具,允许您使用 ggplot2 包创建详细的数据可视化。您可以使用 Esquisse 创建各种散点图、直方图、折线图、条形图、饼图、误差条、箱形图、多轴、迷你图、树状图、3-D 图表等,还可以导出这些图形或访问创建这些图形的代码。 Esquisse 是一个如此著名且易于使用的数据可视化工具,因为它具有拖放功能,即使在初学者中也很受欢迎。您可以使用install.packages(“esquisse”)从 CRAN 安装Esquisse或使用remotes::install_github(“dreamRs/esquisse”)从 GitHub 安装开发版本。
4. 闪亮
Shiny 是一个 R 包,可用于在 R 中构建交互式 Web 应用程序。基本上,Shiny 将 R 与现代 Web 结合起来。而且您可以使用 Shiny 轻松创建 Web 应用程序,而无需任何特殊的 Web 开发技能。使用 Shiny,您可以将 Web 应用程序嵌入到 R 文档中,在网页上创建独立的应用程序,甚至创建 Web 可视化仪表板。如果您想扩展您的 Shiny 应用程序的功能,您可以通过添加 HTML 小部件、CSS 主题、JavaScript 操作等来实现。如果您不太了解 Shiny,您可以访问 Shiny RStudio 网站上的视频教程。您还可以使用开源或商业许可证将 Shiny 应用程序部署到云或您自己的服务器上。
5.mlr3
mlr3 是专为机器学习创建的 R 工具。您可以使用 mlr3 在 Scikit-learn 上实现各种监督和无监督机器学习模型,例如分类、回归、支持向量机、随机森林、最近邻、朴素贝叶斯、决策树、聚类等。它还连接到专门用于支持在线机器学习的 OpenML R 包。您可以在 mlr3 上轻松创建自己的机器学习算法,甚至可以在已经建立的算法中工作。 mlr3 是对其先前版本 mlr 的改进,该版本现已退役且未由 mlr-org 团队更新。您可以使用install.packages(“mlr3”)从 CRAN 安装最新版本的 mlr3 或使用remotes::install_github(“mlr-org/mlr3”)从 GitHub 安装开发版本。
6. 润滑
Lubridate 是一个 R 库,特别专注于使日期时间易于处理。使用 R 处理日期时间数据可能会令人沮丧,因为 R 命令对于此类数据不直观,并且可以根据日期时间对象的类型进行更改。在这种情况下,Lubridate 是一个救星,因为它允许使用简单的函数轻松管理日期时间数据,这些函数可以管理日期时间的组件,例如 second()、minute()、hour()、day()、month()、和年()。 Lubridate 中还有许多新的时间跨度类,它们有助于处理数学运算。这些类包括提供两点之间时间信息的多变摘要的间隔、提供两点之间时间量的持续时间、准确跟踪时钟时间的周期等。 如果要安装 dplyr,最好的方法是安装使用install.packages(“tidyverse”)作为 Lubridate 的 tidyverse 是其中的一部分。或者您可以使用install.packages(“lubridate”)安装 dplyr 。
7. 爬虫
RCrawler 是一个用于基于域的网络爬行和网络抓取的 R 包,它涉及从可在多个应用程序中使用的网站获取结构化数据。 RCrawler 涉及网页结构挖掘、文本挖掘、网页内容挖掘等。Rcrawler 可以自动在网站上的所有页面之间移动,并使用单个命令从这些网页中提取所需的所有数据。然而,这个网络爬行过程是由并行工作的并发节点执行的,所以最好有 64 位版本的 R for Rcrawler。您可以使用命令 install.packages(“Rcrawler”, dependencies = TRUE) 从 CRAN 安装 Rcrawler 的发布版本,或者使用命令devtools::install_github(“salimk/Rcrawler”)从 GitHub 安装可能有错误的开发版本
8.针织
knitr 是一个用于动态报告生成的 R 包,可用于将各种类型的代码集成到 R 代码中,例如 Markdown、LyX、LaTeX、AsciiDoc、HTML 等。 knitr 是一个非常重要的包,如果您正在使用研究报告创建,它也非常支持从数据分析到创建报告的自动化数据过程。 knitr 还将许多功能合并到一个包中,并且还解决了 Sweave 的一些问题,Sweave 是 R 中的一个函数,可以将 R 代码集成到 LyX 或 LaTeX 文档中。您可以使用install.packages(‘knitr’)在 CRAN 上安装稳定版本的 knitr 或使用install.packages(‘knitr’, repos = c(‘https://xran.yihui.org’)从 XRAN 安装开发版本, ‘https://cran.r-project.org’))。
9. DT
DT 是一个 R 包,它提供了 JavaScript 库 DataTables 的接口,可用于以表格的形式显示 R 矩阵和数据框。这些表格是交互式 HTML 表格,您可以执行许多不同的功能,例如排序、搜索、过滤等。 DT 中最重要的函数是 datatable(),因为它可以创建一个数据表来显示 R 对象。您还可以使用 CSS 类在 DT 中设置表格的样式。您可以使用install.packages(‘DT’)在 CRAN 上安装稳定版本的 DT 或使用remotes::install_github(‘rstudio/DT’)从 GitHub 安装开发版本。
10. 诡计多端
Plotly 是一个免费的开源图形库,可用于形成数据可视化。 Plotly 是一个建立在 Plotly JavaScript 库 (plotly.js) 之上的 R 包,可用于创建基于 Web 的数据可视化,这些可视化可以使用 Dash 在 Jupyter 笔记本或 Web 应用程序中显示或保存为单独的 HTML 文件。 Plotly 提供了 40 多种独特的图表类型,如散点图、直方图、折线图、条形图、饼图、误差条、箱线图、多轴、迷你图、树状图、3D 图表等。 Plotly 还提供等高线图,其中在其他数据可视化库中并不常见。除此之外,Plotly 可以在没有互联网连接的情况下离线使用。您可以使用install.packages(‘plotly’)从 CRAN 安装 Plotly,或者使用devtools::install_github(“ropensci/plotly”)从 GitHub 安装最新的开发版本。