📜  数据科学方法论和方法

📅  最后修改于: 2022-05-13 01:55:22.148000             🧑  作者: Mango

数据科学方法论和方法

从事数据科学工作并每天忙于寻找不同问题的答案的人们会遇到数据科学方法论。数据科学方法论指出了为特定问题寻找解决方案的例程。这是一个循环过程,会经历批评行为,指导业务分析师和数据科学家采取相应行动。

  1. 业务理解:
    在解决业务领域中的任何问题之前,需要正确理解它。业务理解形成了一个具体的基础,这进一步导致了查询的轻松解决。我们应该清楚我们要解决的确切问题是什么。
  2. 分析理解:
    基于上述业务理解,应该决定要遵循的分析方法。这些方法可以有 4 种类型:描述性方法(提供当前状态和信息)、诊断性方法(也称为统计分析、正在发生的事情和为什么发生)、预测性方法(预测趋势或未来事件的概率)和规范性方法(实际应该如何解决问题)。
  3. 资料要求:
    上述选择的分析方法表明了要收集的必要数据内容、格式和来源。在数据需求的过程中,应该找到“什么”、“在哪里”、“何时”、“为什么”、“如何”和“谁”等问题的答案。
  4. 数据采集:
    收集的数据可以任何随机格式获得。因此,根据选择的方法和要获得的输出,应验证收集的数据。因此,如果需要,可以收集更多数据或丢弃不相关的数据。
  5. 数据理解:
    数据理解回答了“收集的数据是否代表要解决的问题?”这个问题。描述性统计计算对数据应用的度量,以访问物质的内容和质量。此步骤可能会导致返回到上一步进行更正。
  6. 数据准备:
    让我们通过将这个概念与两个类比联系起来来理解这一点。一是清洗新鲜采摘的蔬菜,二是在自助餐时只把想要的东西放在盘子里吃。蔬菜的清洗表明从数据中去除了污垢,即不需要的材料。到这里去噪就完成了。只取盘子里的可食用物品是,如果我们不需要特定数据,那么我们不应该考虑将其用于进一步处理。这整个过程包括转换、规范化等。
  7. 造型:
    建模决定了为处理准备的数据是否合适或需要更多的整理和调味。此阶段侧重于构建预测/描述性模型。
  8. 评估:
    模型评估是在模型开发期间完成的。它检查要评估的模型的质量以及它是否满足业务要求。它经历了诊断测量阶段(模型按预期工作以及需要修改的地方)和统计显着性测试阶段(确保正确的数据处理和解释)。
  9. 部署:
    随着模型的有效评估,它已准备好在商业市场中部署。部署阶段检查模型在外部环境中可以承受多少,并与其他模型相比表现更好。
  10. 回馈:
    反馈是必要的目的,它有助于完善模型并评估其性能和影响。反馈中涉及的步骤定义了审查过程、跟踪记录、衡量有效性和审查与改进。

在成功消除这 10 个步骤后,不应不处理模型,而是应根据反馈和部署进行适当的更新。随着新技术的出现,应审查新趋势,以便该模型不断为解决方案提供价值。