如今,数据挖掘和知识发现正在发展成为许多领域的业务和研究人员的一项关键技术。数据挖掘正在发展成为成熟且值得信赖的学科,许多尚待解决的挑战必须解决。
下面给出了其中一些挑战。
- 安全和社会挑战:
决策策略是通过数据收集共享完成的,因此需要相当大的安全性。收集有关个人的私人信息和敏感信息,用于客户档案、用户行为模式理解。非法获取信息和信息的机密性成为一个重要问题。 - 用户界面:
使用数据挖掘工具发现的知识只有在它有趣并且最重要的是用户可以理解时才有用。通过对数据进行良好的可视化解释,可以简化挖掘结果并有助于更好地了解其需求。为了获得良好的可视化效果,对显示和操作挖掘知识的大数据集进行了许多研究。
(i) 基于抽象层次的挖掘:数据挖掘过程需要协作,因为它允许用户根据返回的结果专注于模式发现、呈现和优化数据挖掘请求。
(ii)背景知识的整合:先前的信息可用于表达发现的模式以指导探索过程并表达发现的模式。 - 挖掘方法挑战:
这些挑战与数据挖掘方法及其局限性有关。导致问题的挖掘方法是:(i) Versatility of the mining approaches, (ii) Diversity of data available, (iii) Dimensionality of the domain, (iv) Control and handling of noise in data, etc.
基于数据考虑,不同的方法可以不同地实施。一些算法需要无噪声数据。大多数数据集包含异常,无效或不完整的信息会导致分析过程复杂化,并且在某些情况下会影响结果的准确性。
- 复杂数据:
现实世界的数据是异构的,可能是包含图像、音频和视频、复杂数据、时间数据、空间数据、时间序列、自然语言文本等的多媒体数据。很难处理这些各种类型的数据并提取所需的数据。信息。正在开发新的工具和方法来提取相关信息。
(i) 复杂数据类型:数据库可以包括复杂数据元素、具有图形数据的对象、空间数据和时间数据。在一台设备上挖掘所有这些类型的数据是不切实际的。
(ii) 从不同来源挖掘:数据是从网络上的不同来源收集的。数据源可以是不同类型的,这取决于它们的存储方式,例如结构化、半结构化或非结构化。 - 表现:
数据挖掘系统的性能取决于所使用的算法和技术的效率。设计的算法和技术不合格导致影响数据挖掘过程的性能。
(i) 算法的效率和可扩展性:数据挖掘算法必须高效且可扩展,以从数据库中的大量数据中提取信息。
(ii) 挖掘算法的改进:数据库的庞大规模、整个数据流以及数据挖掘方法的难度等因素激发了并行和分布式数据挖掘算法的产生。