📜  数据挖掘的任务和功能

📅  最后修改于: 2021-09-08 15:34:58             🧑  作者: Mango

数据挖掘函数用于定义数据挖掘活动中包含的趋势或相关性。

相比之下,数据挖掘活动可以分为两类:

  1. 描述性数据挖掘:
    它包括某些知识,可以在没有先前想法的情况下了解数据中发生的事情。常见的数据特征在数据集中突出显示。
    例如:计数、平均值等。
  2. 预测数据挖掘:
    它帮助开发人员提供未标记的属性定义。根据之前的测试,该软件会估计不存在的特征。
    例如:根据患者的体检结果判断他是否患有某种特定疾病。

数据挖掘功能:

1. 类/概念说明:
类或定义可以与结果相关联。以简化、描述性且准确的方式定义单个组和概念会很有帮助。
这些类或概念定义被称为类/概念描述。

  • 数据表征:
    这是指对所研究班级的一般特征或特征的总结。例如。为了研究两年前销售额增长了 15% 的软件产品的特征,任何人都可以通过运行 SQL 查询来收集与此类产品相关的此类数据。
  • 数据歧视:
    它比较了正在研究的类的共同特征。这个过程的输出可以用多种形式表示。例如,条形图、曲线和饼图。

2. 挖掘频繁模式、关联和相关性:
频繁模式只不过是数据中最常见的事物。

在数据集中可以观察到不同种类的频率。

  • 频繁项集:
    这适用于许多可以经常一起看到的物品,例如:牛奶和糖。
  • 频繁序列:
    这是指经常定期出现的图案系列,例如购买手机然后购买后盖。
  • 频繁子结构:
    它指的是可以与项集或子序列组合的不同类型的数据结构,例如树和图。

关联分析:
该过程涉及揭示数据之间的关系和决定关联规则。它是一种发现各种项目之间关系的方法。例如,它可用于确定经常一起购买的商品的销售额。

相关分析:
相关性是一种数学技术,可以显示属性对是否相互关联以及相互关联的程度如何。例如,Highted 的人往往有更多的体重。