📜  数据挖掘-问题

📅  最后修改于: 2021-01-11 06:26:33             🧑  作者: Mango


数据挖掘不是一件容易的事,因为使用的算法会变得非常复杂,而且数据并不总是在一个地方可用。它需要从各种异构数据源进行集成。这些因素也会产生一些问题。在本教程的此处,我们将讨论有关以下方面的主要问题:

  • 挖掘方法和用户交互
  • 性能问题
  • 多种数据类型问题

下图描述了主要问题。

数据挖掘问题

挖掘方法和用户交互问题

它涉及以下种类的问题-

  • 在数据库中挖掘不同种类的知识-不同的用户可能对不同种类的知识感兴趣。因此,数据挖掘有必要涵盖广泛的知识发现任务。

  • 在多个抽象级别上的交互式知识挖掘-数据挖掘过程需要是交互式的,因为它允许用户集中精力搜索模式,根据返回的结果提供和完善数据挖掘请求。

  • 背景知识的融合-为了指导发现过程并表达发现的模式,可以使用背景知识。背景知识不仅可以用简洁的术语来表达发现的模式,而且可以在多个抽象级别上表达。

  • 数据挖掘查询语言和临时数据挖掘-允许用户描述临时挖掘任务的数据挖掘查询语言,应与数据仓库查询语言集成在一起,并针对高效而灵活的数据挖掘进行优化。

  • 数据挖掘结果的呈现和可视化-一旦发现模式,就需要用高级语言和可视化表示来表达。这些表示应该易于理解。

  • 处理嘈杂或不完整的数据-在挖掘数据规律性时,需要使用数据清理方法来处理噪声和不完整的对象。如果没有数据清理方法,则发现的模式的准确性将很差。

  • 模式评估-发现的模式应该很有趣,因为它们代表了常识或缺乏新颖性。

性能问题

可能存在与性能相关的问题,例如:

  • 数据挖掘算法的效率和可伸缩性-为了有效地从数据库中的大量数据中提取信息,数据挖掘算法必须高效且可扩展。

  • 并行,分布式和增量挖掘算法-数据库的巨大规模,数据的广泛分布以及数据挖掘方法的复杂性等因素推动了并行和分布式数据挖掘算法的发展。这些算法将数据划分为多个分区,然后以并行方式对其进行进一步处理。然后将来自分区的结果合并。增量算法可更新数据库,而无需再次从头开始挖掘数据。

多种数据类型问题

  • 关系和复杂数据类型的处理-数据库可能包含复杂数据对象,多媒体数据对象,空间数据,时间数据等。一个系统不可能挖掘所有这些类型的数据。

  • 从异构数据库和全球信息系统中挖掘信息-数据可从LAN或WAN上的不同数据源获得。这些数据源可以是结构化,半结构化或非结构化的。因此,从他们那里挖掘知识会给数据挖掘带来挑战。