📅  最后修改于: 2020-12-02 06:40:14             🧑  作者: Mango
探索性数据分析是约翰·塔克(John Tuckey,1977)提出的一个概念,它基于统计学的新观点。 Tuckey的想法是,在传统统计中,数据不是以图形方式进行探索,而只是用于检验假设。开发工具的第一次尝试是在斯坦福进行的,该项目称为prim9 。该工具能够在九个维度上可视化数据,因此能够提供数据的多元视角。
近年来,探索性数据分析是必须的,并且已包含在大数据分析生命周期中。强大的EDA功能推动了在组织中发现见解并进行有效沟通的能力。
基于Tuckey的想法,贝尔实验室开发了S编程语言,以便提供进行统计的交互式界面。 S的想法是通过一种易于使用的语言提供广泛的图形功能。在当今世界中,在大数据的背景下,基于S编程语言的R是最受欢迎的分析软件。
以下程序演示了探索性数据分析的用法。
以下是探索性数据分析的示例。该代码在part1 / eda / exploratory_data_analysis.R文件中也可用。
library(nycflights13)
library(ggplot2)
library(data.table)
library(reshape2)
# Using the code from the previous section
# This computes the mean arrival and departure delays by carrier.
DT
该代码应产生如下图像: