📜  数据挖掘-任务

📅  最后修改于: 2021-01-11 06:26:00             🧑  作者: Mango


数据挖掘处理可以挖掘的模式。根据要挖掘的数据类型,数据挖掘涉及两类功能:

  • 描述性
  • 分类与预测

描述功能

描述函数处理数据库中数据的一般属性。这是描述函数的列表-

  • 类/概念说明
  • 频繁模式的挖掘
  • 协会的挖掘
  • 相关性的挖掘
  • 集群挖掘

类/概念说明

类/概念是指与类或概念相关联的数据。例如,在一家公司中,待售商品的类别包括计算机和打印机,而客户的概念则包括大笔支出和预算支出。类或概念的此类描述称为类/概念描述。这些描述可以通过以下两种方式得出:

  • 数据表征-这是指总结所研究课程的数据。正在研究的课程称为目标课程。

  • 数据区分-它是指某个类与某个预定义的组或类的映射或分类。

频繁模式的挖掘

频繁模式是在事务数据中频繁出现的那些模式。这是常见模式的列表-

  • 常见项目集-它是指一组频繁出现的项目,例如牛奶和面包。

  • 频繁子序列-一系列频繁发生的图案序列,例如购买相机,然后是存储卡。

  • 频繁的子结构-子结构是指不同的结构形式,例如图形,树或格子,可以与项目集或子序列组合。

协会的挖掘

关联在零售中用于识别经常一起购买的模式。该过程是指发现数据之间的关系并确定关联规则的过程。

例如,零售商生成一个关联规则,该规则显示70%的时间牛奶是与面包一起出售的,而饼干的30%是与面包一起出售的。

相关性的挖掘

这是一种附加分析,用于发现关联的属性值对之间或两个项目集之间的有趣统计相关性,以分析它们是否对彼此有正面,负面或无影响。

集群挖掘

群集是指一组相似类型的对象。聚类分析是指形成一组非常相似但与其他聚类中的对象有很大不同的对象。

分类与预测

分类是查找描述数据类或概念的模型的过程。目的是能够使用此模型来预测其类别标签未知的对象的类别。此派生模型基于对训练数据集的分析。导出的模型可以以以下形式表示-

  • 分类(IF-THEN)规则
  • 决策树
  • 数学公式
  • 神经网络

这些过程涉及的功能列表如下-

  • 分类-它预测其类别标签未知的对象的类别。其目的是找到一个描述和区分数据类或概念的派生模型。派生模型基于训练数据的分析集,即其类别标签众所周知的数据对象。

  • 预测-用于预测缺失或不可用的数值数据值,而不是类别标签。回归分析通常用于预测。预测还可以用于基于可用数据识别分布趋势。

  • 离群值分析-离群值可以定义为不符合可用数据的一般行为或模型的数据对象。

  • 演化分析-演化分析是指行为随时间变化的对象的描述和模型规律性或趋势。

数据挖掘任务基元

  • 我们可以以数据挖掘查询的形式指定数据挖掘任务。
  • 该查询被输入到系统。
  • 数据挖掘查询是根据数据挖掘任务原语定义的。

注意-这些原语使我们能够以交互方式与数据挖掘系统进行通信。这是数据挖掘任务基元的列表-

  • 与任务相关的数据集。
  • 要挖掘的知识种类。
  • 发现过程中要使用的背景知识。
  • 模式评估的兴趣度量和阈值。
  • 用于可视化发现的模式的表示形式。

待挖掘的任务相关数据集

这是用户感兴趣的数据库部分。这部分包括以下内容-

  • 数据库属性
  • 感兴趣的数据仓库维度

要挖掘的知识种类

它是指要执行的功能的种类。这些功能是-

  • 表征
  • 歧视
  • 关联和相关分析
  • 分类
  • 预测
  • 聚类
  • 离群分析
  • 进化分析

背景知识

背景知识允许在多个抽象级别上挖掘数据。例如,概念层次结构是允许在多个抽象级别上挖掘数据的背景知识之一。

模式评估的有趣程度和阈值

这用于评估知识发现过程中发现的模式。对于不同种类的知识,有不同的有趣措施。

用于可视化发现的模式的表示

这是指要显示发现的模式的形式。这些表示可能包括以下内容。 –

  • 规则
  • 桌子
  • 图表
  • 图表
  • 决策树
  • 立方体