📜  数据挖掘的实现过程

📅  最后修改于: 2020-12-21 09:45:16             🧑  作者: Mango

数据挖掘实施流程

许多不同部门正在利用数据挖掘来提高其业务效率,包括制造,化学,市场营销,航空航天等。因此,对常规数据挖掘过程的需求得到了有效改善。数据挖掘技术必须是可靠的,可由公司个人重复使用,几乎不了解数据挖掘上下文。结果,经过多次研讨会并为300多个组织做出了贡献之后,于1990年首次引入了跨行业的数据挖掘标准流程(CRISP-DM)。

数据挖掘被描述为使用多种数据挖掘技术(例如人工智能(AI),机器学习和统计数据)通过评估存储在数据仓库中的大量信息来查找隐藏的珍贵数据的过程。

让我们详细研究数据挖掘的实现过程:

跨行业的数据挖掘标准流程(CRISP-DM)

跨行业的数据挖掘标准过程(CRISP-DM)包含六个阶段,这些阶段被设计为循环方法,如下图所示:

1.业务了解:

它侧重于从业务角度理解项目目标和要求,然后在为实现目标而设计的初步计划之后,将此信息转换为数据挖掘问题。

任务:

  • 确定业务目标
  • 访问状况
  • 确定数据挖掘目标
  • 制定项目计划

确定业务目标:

  • 它从业务角度了解项目目标和前提条件。
  • 彻底了解客户想要实现的目标。
  • 从一开始就揭示重要因素,它会影响项目的结果。

访问情况:

  • 它需要对所有资源,约束,假设以及其他应考虑的事实进行更详细的分析。

确定数据挖掘目标:

  • 业务目标说明了业务术语的目标。例如,增加对现有客户的目录销售。
  • 数据挖掘目标描述了项目目标。例如,假设过去三年中,根据客户的人口统计详细信息(年龄,工资和城市)以及商品价格,它假设客户将购买多少商品。

制定项目计划:

  • 它陈述了完成业务和数据挖掘计划的目标计划。
  • 项目计划应定义在项目其余部分中要执行的预期步骤集,包括最新技术和更好的工具选择。

2.数据理解:

数据理解从原始数据收集开始,然后进行操作以熟悉数据,解决数据质量问题,在数据中找到更好的见解或检测隐藏信息假设的有趣子集。

任务:

  • 收集初始数据
  • 描述数据
  • 探索数据
  • 验证数据质量

收集初始数据:

  • 它获取项目资源中提到的信息。
  • 如果需要理解数据,它包括数据加载。
  • 这可能会导致原始数据准备步骤。
  • 如果获取了各种信息源,那么无论是在此处还是在数据准备的后续阶段,集成都是一个额外的问题。

描述数据:

  • 它检查所获得信息的“总”或“表面”特征。
  • 它报告结果。

浏览数据:

  • 解决可以通过查询,可视化报告解决的数据挖掘问题,包括:
    • 重要特征的分布,简单聚集的结果。
    • 建立少量属性之间的关系。
    • 重要子种群的特征,简单的静态分析。
  • 它可以完善数据挖掘目标。
  • 它可以提供或完善信息描述和质量报告。
  • 它可以用于转换和其他必要的信息准备。

验证数据质量:

  • 它检查数据质量和解决问题。

3.数据准备:

  • 通常需要90%以上的时间。
  • 它涵盖了从原始原始信息构建最终数据集的所有操作。
  • 数据准备可能要进行几次,而不是按任何规定的顺序进行。

任务:

  • 选择数据
  • 清理数据
  • 构造数据
  • 整合资料
  • 格式化数据

选择数据:

  • 它决定要用于评估的信息。
  • 在数据选择标准中,包括对数据挖掘目标的重要性,质量和技术限制,例如数据量边界或数据类型。
  • 它涵盖了特性的选择以及表中文档的选择。

清除数据:

  • 它可能涉及选择干净的数据子集,插入适当的默认值或更雄心勃勃的方法,例如通过建模来估计丢失的信息。

构造数据:

  • 它包括建设性的信息准备,例如生成派生的特征,完整的新文档或当前特征的转换值。

整合资料:

  • 集成数据是指将各种表格或文档中的数据进行组合以创建新文档或值的方法。

格式化数据:

  • 格式化数据主要是指对信息进行的语言更改,这些更改不会改变其重要性,但可能需要建模工具。

4.建模:

在建模中,选择并应用了各种建模方法,并将它们的参数测量为最佳值。一些方法对数据形式有特殊要求。因此,必须退回到数据准备阶段。

任务:

  • 选择建模技术
  • 生成测试设计
  • 建立模型
  • 存取模型

选择建模技术:

  • 它选择要使用的实际建模方法。例如,决策树,神经网络。
  • 如果应用了各种方法,则它将针对每种方法分别执行此任务。

生成测试设计:

  • 在构建模型之前,生成用于测试模型的有效性和质量的过程或机制。例如,在分类中,错误率通常用作数据挖掘模型的质量度量。因此,通常将数据集分为训练集和测试集,在训练集上构建模型,并在单独的测试集上评估其质量。

建立模型:

  • 要创建一个或多个模型,我们需要在准备好的数据集上运行建模工具。

评估模型:

  • 它根据其领域专业知识,数据挖掘成功标准和所需的设计来解释模型。
  • 它评估建模应用程序的成功,并从技术上更发现方法。
  • 稍后,它将与业务分析和领域专家联系,以讨论业务环境中数据挖掘的结果。

5.评估:

  • 在此阶段的最后,应确定使用数据挖掘结果的决定。
  • 它有效地评估了模型,并检查了为构建模型而执行的步骤,并确保正确实现了业务目标。
  • 评估的主要目的是确定一些未被充分考虑的重大业务问题。
  • 在此阶段的最后,应就使用数据挖掘结果达成决策。

任务:

  • 评估结果
  • 审查程序
  • 确定下一步

评估结果:

  • 它评估模型满足组织业务目标的程度。
  • 当时间和预算限制允许时,它将在实际实施中的测试应用程序上测试模型,并评估产生的其他数据挖掘结果。
  • 它揭示了其他困难,建议或信息,以备将来使用。

审核过程:

  • 审查过程对数据挖掘参与度进行了更详细的评估,以确定何时存在以某种方式被忽略的重要因素或任务。
  • 它审查了质量保证问题。

确定下一步:

  • 它决定在此阶段如何进行。
  • 它决定是否完成项目并在必要时继续进行部署,还是启动进一步的迭代或建立新的数据挖掘计划。它包括影响决策的资源分析和预算。

6.部署:

确定:

  • 部署是指如何利用结果。

通过以下方式部署数据挖掘结果:

  • 它包括对数据库评分,利用结果作为公司准则,交互式互联网评分。
  • 获取的信息将需要以客户可以使用的方式进行组织和呈现。但是,部署阶段可以像生产一样容易。但是,根据需求,部署阶段可能像生成报告一样简单,也可能像在整个组织中应用可重复的数据挖掘方法一样复杂。

任务:

  • 计划部署
  • 计划监控和维护
  • 产生最终报告
  • 审查项目

计划部署:

  • 要将数据挖掘结果部署到业务中,获取评估结果并得出部署策略。
  • 它指的是该过程的文档,以供以后部署。

计划监控和维护:

  • 当数据挖掘结果成为日常业务及其环境的一部分时,这一点很重要。
  • 它有助于避免不必要地长时间滥用数据挖掘结果。
  • 它需要对监视过程进行详细分析。

产生最终报告:

  • 项目负责人及其团队可以草拟最终报告。
  • 它可能只是项目及其经验的总结。
  • 它可能是数据挖掘的最终和全面的展示。

审查项目:

  • 评审项目评估什么是对的,什么是错的,什么做错了的以及需要改进的地方。