数据科学的 R 编程
R 是一种开源编程语言,被广泛用作统计软件和数据分析工具。 R 是数据科学的重要工具。它非常受欢迎,是许多统计学家和数据科学家的首选。但是是什么让 R 如此受欢迎?为什么以及如何将 R 用于数据科学?
R 编程语言中的数据科学
数据科学已成为 21 世纪最受欢迎的领域。这是因为迫切需要从数据中分析和构建洞察力。工业将原始数据转化为提供的数据产品。为此,它需要几个重要的工具来搅动原始数据。 R 是一种编程语言,它为您提供了一个密集的环境来研究、处理、转换和可视化信息。
R编程和Python编程之间的区别
Feature | R | Python |
---|---|---|
Introduction | R is a language and environment for statistical programming which includes statistical computing and graphics. | Python is a general purpose programming language for data analysis and scientific computing |
Objective | It has many features which are useful for statistical analysis and representation. | It can be used to develop GUI applications and web applications as well as with embedded systems |
Workability | It has many easy to use packages for performing tasks | It can easily perform matrix computation as well as optimization |
Integrated development environment | Various popular R IDEs are Rstudio, RKward, R commander, etc. | Various popular Python IDEs are Spyder, Eclipse+Pydev, Atom, etc. |
Libraries and packages | There are many packages and libraries like ggplot2, caret, etc. | Some essential packages and libraries are Pandas, Numpy, Scipy, etc. |
Scope | It is mainly used for complex data analysis in data science. | It takes a more streamlined approach for data science projects. |
R的特点——数据科学
R 在数据科学应用中的一些重要特性是:
- R 为统计建模提供了广泛的支持。
- R 是适用于各种数据科学应用程序的工具,因为它提供了美学可视化工具。
- R 在 ETL(提取、转换、加载)的数据科学应用程序中被大量使用。它为许多数据库(如 SQL 甚至电子表格)提供了一个接口。
- R 还为数据整理提供了各种重要的包。
- 借助 R,数据科学家可以应用机器学习算法来深入了解未来事件。
- R 的重要特性之一是与 NoSQL 数据库交互并分析非结构化数据。
R 库中最常见的数据科学
- Dplyr :为了执行数据整理和数据分析,我们使用 dplyr 包。我们使用这个包来促进 R 中数据框的各种功能。Dplyr 实际上是围绕这 5 个功能构建的。您可以使用本地数据框以及远程数据库表。您可能需要:
选择某些数据列。
过滤数据以选择特定行。
按顺序排列数据行。
改变您的数据框以包含新列。
以某种方式汇总数据块。 - ggplot2 : R以其可视化库ggplot2而闻名。它提供了一组具有交互性的美学图形。ggplot2 库实现了“图形语法”(Wilkinson,2005)。这种方法为我们提供了一种通过表达数据属性与其图形表示之间的关系来产生可视化的连贯方式。
- Esquisse :这个包将 Tableau 最重要的功能带到了 R 中。只需拖放,几分钟内即可完成可视化。这实际上是对ggplot2的增强。它允许我们绘制条形图、曲线、散点图、直方图,然后导出图形或检索生成图形的代码。
- Tidyr : Tidyr 是我们用来整理或清理数据的包。当每个变量代表一列并且每一行代表一个观察值时,我们认为这些数据是整齐的。
- Shiny :这是 R 中一个非常知名的包。当您想与周围的人分享您的东西并让他们更容易了解和直观地探索它时,您可以使用 Shiny。它是数据科学家最好的朋友。
- 插入符号:插入符号代表分类和回归训练。使用此函数,您可以对复杂的回归和分类问题进行建模。
- E1071 :这个包广泛用于实现聚类、傅里叶变换、朴素贝叶斯、SVM 和其他类型的杂项函数。
- Mlr :这个包在执行机器学习任务方面绝对令人难以置信。它几乎拥有用于执行机器学习任务的所有重要且有用的算法。它也可以称为分类、回归、聚类、多分类和生存分析的可扩展框架。
其他值得一提的 R 库:
- 润滑
- 针织品
- DT(数据表)
- 爬虫
- 传单
- 看门人
- 情节
R 在数据科学中的应用
将 R 用于数据科学的顶级公司:
- Google:在 Google,R 是执行许多分析操作的流行选择。 Google 流感趋势项目利用 R 分析与流感相关的搜索趋势和模式。
- Facebook Facebook 大量使用 R 进行社交网络分析。它使用 R 来获取有关用户行为的见解并建立他们之间的关系。
- IBM: IBM 是 R 的主要投资者之一。它最近加入了 R 联盟。 IBM 还利用 R 开发各种分析解决方案。它在 IBM Watson(一个开放计算平台)中使用了 R。
- 优步:优步使用 R 包 Shiny 来访问其图表组件。 Shiny 是使用 R 构建的交互式 Web 应用程序,用于嵌入交互式可视图形。