📜  数据挖掘-分类和预测

📅  最后修改于: 2021-01-11 06:29:40             🧑  作者: Mango


数据分析有两种形式,可用于提取描述重要类别的模型或预测未来的数据趋势。这两种形式如下-

  • 分类
  • 预测

分类模型预测分类类别标签;预测模型预测连续值函数。例如,我们可以建立一个分类模型,将银行贷款申请分类为安全或风险分类,或者建立一个预测模型,根据潜在客户的收入和职业,预测其在计算机设备上的美元支出。

什么是分类?

以下是数据分析任务为分类的情况的示例-

  • 银行信贷员想分析数据,以便知道哪个客户(贷款申请人)有风险或哪个安全。

  • 公司的营销经理需要分析具有给定配置文件的客户,该客户将购买一台新计算机。

在以上两个示例中,都构建了模型或分类器以预测分类标签。这些标签对于贷款申请数据而言是危险或安全的,对于市场营销数据而言则为是或否。

什么是预测?

以下是数据分析任务为预测的情况的示例-

假设营销经理需要预测给定客户在其公司进行销售期间将花费多少。在这个例子中,我们很费力地预测一个数值。因此,数据分析任务是数值预测的一个示例。在这种情况下,将构建预测连续值函数或有序值的模型或预测器。

–回归分析是最常用于数值预测的统计方法。

分类如何工作?

在上面讨论的银行贷款申请的帮助下,让我们了解了分类的工作。数据分类过程包括两个步骤-

  • 建立分类器或模型
  • 使用分类器进行分类

建立分类器或模型

  • 此步骤是学习步骤或学习阶段。

  • 在此步骤中,分类算法将构建分类器。

  • 分类器是根据由数据库元组及其关联的类标签组成的训练集构建的。

  • 构成训练集的每个元组都称为类别或类。这些元组也可以称为样本,对象或数据点。

建立分类器或模型

使用分类器进行分类

在此步骤中,将分类器用于分类。这里,测试数据用于估计分类规则的准确性。如果认为准确性可以接受,则可以将分类规则应用于新的数据元组。

使用分类器

分类和预测问题

主要问题是为分类和预测准备数据。准备数据涉及以下活动-

  • 数据清理-数据清理包括消除噪声和处理缺失值。通过应用平滑技术可以消除噪声,并通过用该属性的最常见值替换缺失值来解决缺失值的问题。

  • 相关性分析-数据库也可能具有不相关的属性。相关分析用于了解两个给定属性是否相关。

  • 数据转换和归约-可以通过以下任何一种方法转换数据。

    • 标准化-使用标准化对数据进行转换。规范化涉及缩放给定属性的所有值,以使其落在较小的指定范围内。在学习步骤中使用神经网络或涉及测量的方法时,使用归一化。

    • 概括-数据也可以通过将其概括为更高的概念来进行转换。为此,我们可以使用概念层次结构。

–数据也可以通过其他一些方法来减少,例如小波变换,合并,直方图分析和聚类。

分类和预测方法的比较

这是比较分类和预测方法的标准-

  • 准确性-分类器的准确性是指分类器的能力。它正确地预测了类别标签,预测器的准确性是指给定的预测器可以猜测新数据的预测属性的值的程度。

  • 速度-指生成和使用分类器或预测器的计算成本。

  • 鲁棒性-指分类器或预测器根据给定的噪声数据做出正确预测的能力。

  • 可伸缩性-可伸缩性是指有效构造分类器或预测器的能力;给定大量数据。

  • 可解释性-指分类器或预测器理解的程度。