探索性数据分析 (EDA) – 类型和工具

John Tukey 提倡探索性数据分析，以鼓励统计学家探索数据，并可能制定可能导致新数据收集和实验的假设。 EDA 更专注于检查模型拟合和假设检验所需的假设。它还在处理缺失值和根据需要进行变量转换时进行检查。

EDA 建立了对数据、与信息或流程相关的问题的强大理解。这是获取数据故事的科学方法。

探索性数据分析的类型：

单变量非图形
多元非图形
单变量图形
多元图形

1. 单变量非图形：这是最简单的数据分析形式，因为在此期间我们只使用一个变量来研究信息。单变量非图形 EDA 的标准目标是了解基础样本分布/数据并对总体进行观察。异常值检测也是分析的一部分。人口分布特点包括：

集中趋势：集中趋势或分布位置与典型值或中间值有关。集中趋势的常用度量是称为均值、中位数的统计数据，有时还有众数，其中最常见的是均值。对于偏态分布或当担心异常值时，中位数可能是首选。
传播：传播是一个指标，表明我们要寻找信息值与中间距离的比例。质量偏差和方差是两种有用的传播度量。方差是个体偏差的平方的平均值，因此方差是方差的根
偏度和峰度：两个更有用的单变量描述符是分布的偏度和峰度。偏度是与正态分布相比，不对称性和峰度的度量可能是峰值的更微妙的度量

2. 多元非图形：多元非图形 EDA 技术通常不会以交叉列表或统计的形式显示两个或多个变量之间的联系。

对于分类数据，称为交叉表的制表扩展非常有用。对于 2 个变量，首选交叉制表，方法是制作一个双向表，其中列标题与一个变量的数量相匹配，而行标题与相反的两个变量的数量相匹配，然后用共享一个变量的所有主题填充计数等效的一对水平。
对于每个分类变量和一个定量变量，我们分别为特定变量的每个级别创建定量变量的统计数据，然后比较分类变量数量的统计数据。
比较均值是 ANOVA 的现成版本，比较中位数可能是单向 ANOVA 的稳健版本。

3. 单变量图形化：非图形化方法是定量的、客观的，它们没有给出数据的完整图景；因此，图形方法更多地涉及到一定程度的主观分析，也是必需的。常见的单变量图形类型有：

直方图：最重要的基本图形是直方图，它可能是一个条形图，其中每个条形表示各种值的案例频率（计数）或比例（计数/总计数）。直方图是快速了解大量数据的最简单方法之一，包括集中趋势、传播、模态、形状和异常值。
茎叶图：一个简单的直方图替代方法可能是茎叶图。它显示了所有数据值以及分布的形状。
箱线图：另一个非常有用的单变量图形技术是箱线图。箱线图非常擅长呈现关于集中趋势的信息，并显示出对位置和传播的稳健测量，还可以提供有关对称性和异常值的信息，尽管它们会在多模态等方面产生误导。箱线图最简单的用途之一是在并排箱线图中。
分位数正态图：最终的单变量图形 EDA 技术是最复杂的。它被称为分位数正态图或 QN 图，或更一般地称为分位数分位数图或 QQ 图。不会看到特定样本遵循特定理论分布的程度。它允许检测非正态性并诊断偏度和峰度

4. 多元图形：多元图形数据使用图形来显示两组或多组知识之间的关系。唯一常用的可能是分组条形图，其中每组代表变量的一个水平，而集合中的每个条形代表相反变量的数量。

其他常见的多元图形类型是：

散点图：对于 2 个定量变量，基本的图形 EDA 技术是散点图，因此在 x 轴上有一个变量，在 y 轴上有一个变量，因此是数据集中每个案例的点。
运行图：它是随时间绘制的数据线图。
热图：它是数据的图形表示，其中值用颜色表示。
多元图表：它是因子和响应之间关系的图形表示。
气泡图：它是一种数据可视化，在二维图中显示多个圆圈（气泡）。

简而言之：在进一步分析数据之前，您应该始终执行适当的 EDA。执行任何必要的步骤以更熟悉您的数据、检查明显错误、了解变量分布并研究变量之间的关系。 EDA 不是一门精确的科学——它非常重要！

探索性数据分析所需的工具：

用于创建 EDA 的一些最常用工具是：

1. R： R 统计计算基金会支持的用于统计计算和图形的开源编程语言和免费软件环境。 R 语言在统计学家中广泛用于开发统计观察和数据分析。

2. Python：一种具有动态语义的解释型、面向对象的编程语言。它的高级、内置数据结构与动态绑定相结合，使其对快速应用程序开发非常有吸引力，还可用作脚本或粘合语言将现有组件连接在一起。 Python和 EDA 通常一起用于发现数据集中的缺失值，这很重要，因此您将决定处理机器学习缺失值的方式。

除了上述这些功能外，EDA 还可以：

Perform k-means clustering: Perform k-means clustering：它是一种无监督学习算法，其中信息点被分配到集群，也称为k-groups，k-means聚类通常用于市场分割、图像压缩和模式认出
EDA 通常用于线性回归等预测模型中，在这种模型中它不会预测结果。
它还用于单变量、双变量和多变量可视化的汇总统计、建立每个变量之间的关系以及了解数据中的不同字段如何相互交互。