数据挖掘是指从已收集的数据中检测和提取新模式。数据挖掘是统计学和计算机科学领域的结合,旨在发现难以置信的大数据集中的模式,然后将它们转换成易于理解的结构以备后用。
数据挖掘架构:
基本工作:
- 这一切都始于用户提出某些数据挖掘请求,然后将这些请求发送到数据挖掘引擎进行模式评估。
- 这些应用程序尝试使用已经存在的数据库找到查询的解决方案。
- 然后将提取的元数据发送到数据挖掘引擎进行适当的分析,该引擎有时与模式评估模块交互以确定结果。
- 然后使用合适的接口以易于理解的方式将该结果发送到前端。
数据挖掘架构部分的详细描述如下所示:
- 数据源:
数据库、万维网(WWW)和数据仓库是数据源的一部分。这些来源中的数据可能是纯文本、电子表格或其他媒体形式,如照片或视频。 WWW 是最大的数据来源之一。 - 数据库服务器:
数据库服务器包含准备好处理的实际数据。它根据用户的请求执行处理数据检索的任务。 - 数据挖掘引擎:
它是数据挖掘架构的核心组件之一,执行关联、分类、表征、聚类、预测等各种数据挖掘技术。 - 模式评估模块:
他们负责在数据中寻找有趣的模式,有时他们还与数据库服务器交互以产生用户请求的结果。 - 图形用户界面:
由于用户不能完全理解数据挖掘过程的复杂性,因此图形用户界面有助于用户与数据挖掘系统进行有效的交流。 - 知识库:
知识库是数据挖掘引擎的重要组成部分,对指导搜索结果模式非常有益。数据挖掘引擎有时也可能从知识库中获取输入。该知识库可能包含来自用户体验的数据。知识库的目标是使结果更加准确和可靠。
数据挖掘架构的类型:
- 无耦合:
无耦合数据挖掘架构从特定数据源检索数据。它不使用数据库来检索数据,否则这是一种非常有效和准确的方法。数据挖掘的无耦合架构很差,仅用于执行非常简单的数据挖掘过程。 - 松耦合:
在松耦合架构中,数据挖掘系统从数据库中检索数据并将数据存储在这些系统中。这种挖掘适用于基于内存的数据挖掘架构。 - 半紧耦合:
它倾向于使用数据仓库系统的各种有利特征。它包括排序、索引、聚合。在这种架构中,可以将中间结果存储在数据库中以获得更好的性能。 - 紧耦合:
在此架构中,数据仓库被视为其最重要的组件之一,其功能用于执行数据挖掘任务。此架构提供可扩展性、性能和集成信息
数据挖掘的优势:
- 通过准确预测未来趋势,帮助预防未来的对手。
- 有助于做出重要决策。
- 将数据压缩为有价值的信息。
- 提供新的趋势和意想不到的模式。
- 有助于分析庞大的数据集。
- 帮助公司寻找、吸引和留住客户。
- 帮助公司改善与客户的关系。
- 帮助企业根据产品的好坏程度优化生产,从而为企业节约成本。
数据挖掘的缺点:
- 过度的工作强度需要高绩效团队和员工培训。
- 大量投资的要求也可以被视为一个问题,因为有时数据收集会消耗许多假设成本很高的资源。
- 缺乏安全性也可能使数据面临巨大风险,因为数据可能包含私人客户详细信息。
- 不准确的数据可能会导致错误的输出。
- 庞大的数据库很难管理。