📜  大数据分析-数据探索

📅  最后修改于: 2020-12-02 06:40:14             🧑  作者: Mango


探索性数据分析是约翰·塔克(John Tuckey,1977)提出的一个概念,它基于统计学的新观点。 Tuckey的想法是,在传统统计中,数据不是以图形方式进行探索,而只是用于检验假设。开发工具的第一次尝试是在斯坦福进行的,该项目称为prim9 。该工具能够在九个维度上可视化数据,因此能够提供数据的多元视角。

近年来,探索性数据分析是必须的,并且已包含在大数据分析生命周期中。强大的EDA功能推动了在组织中发现见解并进行有效沟通的能力。

基于Tuckey的想法,贝尔实验室开发了S编程语言,以便提供进行统计的交互式界面。 S的想法是通过一种易于使用的语言提供广泛的图形功能。在当今世界中,在大数据的背景下,基于S编程语言的R是最受欢迎的分析软件。

顶级分析软件包

以下程序演示了探索性数据分析的用法。

以下是探索性数据分析的示例。该代码在part1 / eda / exploratory_data_analysis.R文件中也可用。

library(nycflights13) 
library(ggplot2) 
library(data.table) 
library(reshape2)  

# Using the code from the previous section 
# This computes the mean arrival and departure delays by carrier. 
DT 

该代码应产生如下图像:

平均延迟