📜  数据挖掘技术

📅  最后修改于: 2020-12-21 09:44:16             🧑  作者: Mango

数据挖掘技术

数据挖掘包括利用完善的数据分析工具来查找海量数据集中以前未知的有效模式和关系。这些工具可以合并统计模型,机器学习技术和数学算法,例如神经网络或决策树。因此,数据挖掘结合了分析和预测。

依赖于机器学习,数据库管理和统计数据相交的各种方法和技术,数据挖掘专业人员致力于他们的职业,以更好地理解如何处理并根据大量数据得出结论,但是他们使用的方法是什么?实现它?

在最近的数据挖掘项目中,已经开发并使用了各种主要的数据挖掘技术,包括关联,分类,聚类,预测,顺序模式和回归。

1.分类:

此技术用于获取有关数据和元数据的重要且相关的信息。这种数据挖掘技术有助于将数据分类为不同的类别。

数据挖掘技术可以按照不同的标准进行分类,如下所示:

  • 根据所挖掘的数据源的类型对数据挖掘框架进行分类:此分类根据所处理的数据类型进行。例如,多媒体,空间数据,文本数据,时间序列数据,万维网等。
  • 根据所涉及的数据库对数据挖掘框架进行分类:此分类基于所涉及的数据模型。例如。面向对象的数据库,事务型数据库,关系型数据库等等。
  • 根据发现的知识种类对数据挖掘框架进行分类:此分类取决于发现的知识或数据挖掘功能的类型。例如,区分,分类,聚类,特征描述等。某些框架往往是广泛的框架,这些框架一起提供了一些数据挖掘功能。
  • 根据所使用的数据挖掘技术对数据挖掘框架进行分类:根据使用的数据分析方法进行分类,例如神经网络,机器学习,遗传算法,可视化,统计,面向数据仓库或面向数据库等。分类还可以考虑数据挖掘过程中涉及的用户交互级别,例如查询驱动系统,自治系统或交互式探索系统。

2.聚类:

聚类是将信息划分为一组连接的对象。通过几个聚类来描述数据主要会丢失某些限制细节,但可以实现改进。它通过集群对数据建模。数据建模从历史的角度出发,将聚类植根于统计,数学和数值分析。从机器学习的角度来看,聚类与隐藏模式有关,对聚类的搜索是无监督学习,随后的框架表示数据概念。从实际的角度来看,集群在数据挖掘应用程序中发挥着非凡的作用。例如,科学数据探索,文本挖掘,信息检索,空间数据库应用程序,CRM,Web分析,计算生物学,医学诊断等等。

换句话说,可以说聚类分析是一种用于识别相似数据的数据挖掘技术。此技术有助于识别数据之间的差异和相似性。聚类与分类非常相似,但是聚类涉及根据数据的相似性将数据块分组在一起。

3.回归:

回归分析是由于存在其他因素,因此数据挖掘过程用于识别和分析变量之间的关系。它用于定义特定变量的概率。回归,主要是规划和建模的一种形式。例如,我们可能会用它来预测某些成本,具体取决于可用性,消费者需求和竞争等其他因素。首先,它给出了给定数据集中两个或多个变量之间的确切关系。

4.关联规则:

这种数据挖掘技术有助于发现两个或多个项目之间的链接。它在数据集中找到隐藏的模式。

关联规则是if-then语句,支持显示不同类型数据库中大型数据集中数据项之间的交互概率。关联规则挖掘有多种应用程序,通常用于帮助数据或医疗数据集中的销售关联。

该算法的工作方式是您拥有各种数据,例如,最近六个月内一直在购买的杂货清单。它计算一起购买的商品的百分比。

这是三种主要的测量技术:

  • 提升度:这项测量技术可测量购买商品B的置信度的准确性。 (置信度)/(项目B)/(整个数据集)
  • 支持:这项测量技术可以测量购买多件物品的频率,并将其与整体数据集进行比较。 (项目A +项目B)/(整个数据集)
  • 信心:此测量技术可以测量购买商品A时购买商品B的频率。 (项目A +项目B)/(项目A)

5.外部检测:

这种类型的数据挖掘技术涉及对数据集中数据项的观察,这些数据项与预期的模式或预期的行为不匹配。此技术可以在各种领域中使用,例如入侵,检测,欺诈检测等。它也称为异常值分析或异常值挖掘。离群值是一个与其他数据集相差太大的数据点。现实世界中的大多数数据集都有一个异常值。离群检测在数据挖掘领域中起着重要作用。离群检测在许多领域中都很有价值,例如网络中断识别,信用卡或借记卡欺诈检测,无线传感器网络数据中的异常检测等。

6.顺序模式:

顺序模式是一种数据挖掘技术,专门用于评估顺序数据以发现顺序模式。它包括在一组序列中查找有趣的子序列,其中可以根据不同的标准(例如长度,出现频率等)来测量序列的赌注。

换句话说,这种数据挖掘技术有助于在一段时间内发现或识别交易数据中的相似模式。

7.预测:

预测结合了其他数据挖掘技术(例如趋势,聚类,分类等)的组合。它以正确的顺序分析过去的事件或实例,以预测将来的事件。