📜  数据挖掘中的统计方法

📅  最后修改于: 2022-05-13 01:57:02.503000             🧑  作者: Mango

数据挖掘中的统计方法

数据挖掘是指从大量数据中提取或挖掘知识。换句话说,数据挖掘是发现大量复杂数据以发现有用模式的科学、艺术和技术。理论家和实践者一直在寻求改进的技术,以使该过程更高效、更具成本效益和更准确。在数据挖掘中,任何情况都可以通过两种方式进行分析:

  • 统计分析:在统计中,数据被收集、分析、探索和呈现以识别模式和趋势。或者,它被称为定量分析。
  • 非统计分析:此分析提供一般信息,包括声音、静止图像和运动图像。

在统计学中,主要有两大类:

  • 描述性统计:描述性统计的目的是组织数据并确定该数据的主要特征。图表或数字总结了数据。平均值、众数、SD(标准偏差)和相关性是一些常用的描述性统计方法。
  • 推论统计:基于概率论得出结论并概括数据的过程。通过分析样本统计数据,您可以推断有关总体的参数并在数据中建立关系模型。

在处理统计数据时,应该注意各种统计术语。其中一些是:

  • 人口
  • 样本
  • 多变的
  • 定量变量
  • 定性变量
  • 离散变量
  • 连续变量

现在,让我们开始讨论统计方法。这是使用数学公式、模型和技术对原始数据进行的分析。通过使用统计方法,从研究数据中提取信息,并以不同的方式来判断研究成果的稳健性。

事实上,当今数据挖掘领域使用的统计方法通常源自为解决其他领域出现的问题而开发的庞大统计工具包。这些技术在科学课程中教授。有必要检查和检验几个假设。上述假设有助于我们在尝试从正在研究的数据中推断出任何推论时评估数据挖掘工作的有效性。当使用更复杂和复杂的统计估计器和测试时,这些问题变得更加明显。

为了从包含不同类型观察的数据库中提取知识,数据挖掘中提供了多种统计方法,其中一些是:

  • 逻辑回归分析
  • 相关性分析
  • 回归分析
  • 判别分析
  • 线性判别分析 (LDA)
  • 分类
  • 聚类
  • 异常值检测
  • 分类和回归树,
  • 对应分析
  • 非参数回归,
  • 统计模式识别,
  • 分类数据分析,
  • 趋势和周期性的时间序列方法
  • 人工神经网络

现在,让我们尝试了解一些用于数据挖掘的重要统计方法:

  • 线性回归:线性回归方法使用自变量和因变量之间的最佳线性关系来预测目标变量。为了达到最佳拟合,请确保形状与每个点的实际观察值之间的所有距离都尽可能小。可以通过确定在给定所选形状的情况下没有其他位置会产生更少的误差来确定良好的拟合。简单线性回归和多元线性回归是线性回归的两种主要类型。通过拟合自变量的线性关系,简单线性回归可以预测因变量。使用多个自变量,多元线性回归拟合与因变量的最佳线性关系。有关更多详细信息,您可以参考线性回归。
  • 分类:这是一种数据挖掘方法,其中对数据集合进行分类,以便可以预测和分析更高程度的准确性。分析非常大的数据集的一种有效方法是对它们进行分类。分类是旨在提高分析过程效率的几种方法之一。逻辑回归和判别分析是两种主要的分类技术。
    • 逻辑回归:它也可以应用于机器学习应用和预测分析。在这种方法中,因变量是二元(二元回归)或多项(多项回归):两个选项中的一个或一个、两个、三个或四个选项的集合。使用逻辑回归方程,可以估计关于自变量和因变量之间关系的概率。要详细了解逻辑回归分析,可以参考逻辑回归。
    • 判别分析:判别分析是一种基于类别或集群的测量分析数据并将新观察结果分类到一个或多个先验确定的总体的统计方法。判别分析独立地对每个响应类别进行建模,然后使用贝叶斯定理翻转这些预测,以估计给定 X 值的每个响应类别的可能性。这些模型可以是线性的或二次的。
      • 线性判别分析:根据线性判别分析,每个观察值都被分配一个判别分数,以将其分类为响应变量类。通过以线性方式组合自变量,可以获得这些分数。基于此模型,观测值来自高斯分布,预测变量在响应变量 Y 的所有 k 个水平上相关,并进一步了解线性判别分析
      • 二次判别分析:二次判别分析提供了另一种方法。 LDA 和 QDA 都假设 Y 类的观测值服从高斯分布。与 LDA 不同,QDA 认为每个类都有自己的协方差矩阵。因此,预测变量在 Y 的 k 个水平上具有不同的方差。
    • 相关性分析:在统计术语中,相关性分析捕获一对变量之间的关系。此类变量的值通常存储在数据库表的列或行中,并表示对象的属性。
    • 回归分析:基于一组数值数据,回归是一种数据挖掘方法,可以预测一系列数值(也称为连续值)。例如,您可以使用回归来根据其他变量预测商品和服务的成本。许多行业都使用回归模型来预测财务数据、模拟环境条件和分析趋势。

创建良好统计数据的第一步是获得有目的的良好数据。有两种主要类型的数据:我们控制或能够测量的输入(独立或预测)变量,以及观察到的输出(依赖或响应)变量。少数将是定量测量,但其他可能是定性或分类变量(称为因子)。