📜  数据挖掘架构的类型和部分

📅  最后修改于: 2021-09-09 11:43:43             🧑  作者: Mango

数据挖掘是指从已收集的数据中检测和提取新模式。数据挖掘是统计学和计算机科学领域的结合,旨在发现难以置信的大数据集中的模式,然后将它们转换成易于理解的结构以备后用。

数据挖掘架构:

基本工作:

  1. 这一切都始于用户提出某些数据挖掘请求,然后将这些请求发送到数据挖掘引擎进行模式评估。
  2. 这些应用程序尝试使用已经存在的数据库找到查询的解决方案。
  3. 然后将提取的元数据发送到数据挖掘引擎进行适当的分析,该引擎有时与模式评估模块交互以确定结果。
  4. 然后使用合适的接口以易于理解的方式将该结果发送到前端。

数据挖掘架构部分的详细描述如下所示:

  1. 数据源:
    数据库、万维网(WWW)和数据仓库是数据源的一部分。这些来源中的数据可能是纯文本、电子表格或其他媒体形式,如照片或视频。 WWW 是最大的数据来源之一。
  2. 数据库服务器:
    数据库服务器包含准备好处理的实际数据。它根据用户的请求执行处理数据检索的任务。
  3. 数据挖掘引擎:
    它是数据挖掘架构的核心组件之一,执行关联、分类、表征、聚类、预测等各种数据挖掘技术。
  4. 模式评估模块:
    他们负责在数据中寻找有趣的模式,有时他们还与数据库服务器交互以产生用户请求的结果。
  5. 图形用户界面:
    由于用户不能完全理解数据挖掘过程的复杂性,因此图形用户界面有助于用户与数据挖掘系统进行有效的交流。
  6. 知识库:
    知识库是数据挖掘引擎的重要组成部分,对指导搜索结果模式非常有益。数据挖掘引擎有时也可能从知识库中获取输入。该知识库可能包含来自用户体验的数据。知识库的目标是使结果更加准确和可靠。

数据挖掘架构的类型:

  1. 无耦合:
    无耦合数据挖掘架构从特定数据源检索数据。它不使用数据库来检索数据,否则这是一种非常有效和准确的方法。数据挖掘的无耦合架构很差,仅用于执行非常简单的数据挖掘过程。
  2. 松耦合:
    在松耦合架构中,数据挖掘系统从数据库中检索数据并将数据存储在这些系统中。这种挖掘适用于基于内存的数据挖掘架构。
  3. 半紧耦合:
    它倾向于使用数据仓库系统的各种有利特征。它包括排序、索引、聚合。在这种架构中,可以将中间结果存储在数据库中以获得更好的性能。
  4. 紧耦合:
    在此架构中,数据仓库被视为其最重要的组件之一,其功能用于执行数据挖掘任务。此架构提供可扩展性、性能和集成信息

数据挖掘的优势:

  • 通过准确预测未来趋势,帮助预防未来的对手。
  • 有助于做出重要决策。
  • 将数据压缩为有价值的信息。
  • 提供新的趋势和意想不到的模式。
  • 有助于分析庞大的数据集。
  • 帮助公司寻找、吸引和留住客户。
  • 帮助公司改善与客户的关系。
  • 帮助企业根据产品的好坏程度优化生产,从而为企业节约成本。

数据挖掘的缺点:

  • 过度的工作强度需要高绩效团队和员工培训。
  • 大量投资的要求也可以被视为一个问题,因为有时数据收集会消耗许多假设成本很高的资源。
  • 缺乏安全性也可能使数据面临巨大风险,因为数据可能包含私人客户详细信息。
  • 不准确的数据可能会导致错误的输出。
  • 庞大的数据库很难管理。