大数据分析生命周期
在本文中,我们将讨论大数据分析的生命周期阶段。它不同于传统的数据分析,主要是因为在大数据中,体量、种类和速度是数据的基础。
大数据分析生命周期分为九个阶段,命名为:
- 业务案例/问题定义
- 数据识别
- 数据采集和过滤
- 数据提取
- 数据管理(验证和清理)
- 数据聚合与表示(存储)
- 探索性数据分析
- 数据可视化(建模和评估准备)
- 分析结果的利用。
让我们讨论每个阶段:
- 第一阶段业务问题定义——
在这个阶段,团队了解业务领域,它提出了执行分析的动机和目标。在这个阶段,问题被确定,并假设公司在进行分析后将获得多少潜在收益。此步骤中的重要活动包括将业务问题构建为可以在后续阶段解决的分析挑战。它有助于决策者了解需要使用的业务资源,从而确定执行项目所需的基本预算。
此外,可以根据业务案例中的业务需求确定所识别的问题是否为大数据问题。要成为大数据问题,业务案例应与数量、速度或种类中的一个(或多个)特征直接相关。 - 第二阶段数据定义——
一旦确定了业务案例,现在是时候找到合适的数据集了。在这个阶段,分析是为了看看其他公司对类似案例做了什么。
根据业务案例和正在处理的项目的分析范围,数据集的来源可以是公司外部或内部的。对于内部数据集,数据集可以包括从内部来源收集的数据,例如来自现有软件的反馈表。另一方面,对于外部数据集,该列表包括来自第三方提供商的数据集。 - 第三阶段数据采集和过滤——
一旦确定了数据的来源,现在是时候从这些来源收集数据了。这类数据大多是非结构化的,然后进行过滤,例如去除损坏的数据或无关的数据,这不属于分析目标的范围。此处损坏的数据是指可能缺少记录的数据,或者包含不兼容数据类型的数据。
过滤后,存储和压缩过滤数据的副本,因为它可以在将来用于其他分析。 - 第四阶段数据提取——
现在数据被过滤了,但可能有一些数据条目可能不兼容,为了纠正这个问题,创建了一个单独的阶段,称为数据提取阶段。在此阶段,与分析的基础范围不匹配的数据将被提取并以这种形式进行转换。 - 第五阶段数据管理——
如第三阶段所述,数据是从各种来源收集的,这导致数据是非结构化的。数据可能有不合适的约束,这可能会导致错误的结果。因此,需要清理和验证数据。
它包括删除任何无效数据和建立复杂的验证规则。有很多方法可以验证和清理数据。例如,一个数据集可能包含几行,其中包含空条目。如果存在类似的数据集,则从该数据集中复制这些条目,否则将删除这些行。 - 第六阶段数据聚合和表示 -
根据企业设定的某些规则,对数据进行清理和验证。但是数据可能分布在多个数据集上,不建议使用多个数据集。因此,数据集被连接在一起。例如:如果有两个数据集,即学生学术部分和学生个人详细信息部分的数据集,则可以通过公共字段(即卷号)将两者连接在一起。
这个阶段需要密集的操作,因为数据量可能非常大。可以考虑自动化,以便在没有任何人工干预的情况下执行这些操作。 - 第七阶段探索性数据分析——
这是实际的步骤,分析任务。根据大数据问题的性质,进行分析。数据分析可分为验证性分析和探索性分析。在验证性分析中,先分析一个现象的原因。假设称为假设。分析数据以批准或不批准假设。
这种分析为某些特定问题提供了明确的答案,并确认假设是否正确。在探索性分析中,探索数据以获得信息,为什么会发生现象。这种类型的分析回答了“为什么”出现了一个现象。这种分析不提供明确的,同时,它提供模式的发现。 - 第八阶段数据可视化——
现在我们有了一些问题的答案,使用数据集中的数据信息。但这些答案仍以无法呈现给业务用户的形式出现。需要一种表示来从分析中获得价值或某些结论。因此,各种工具用于以图形形式可视化数据,业务用户可以轻松解释这些数据。
据说可视化会影响结果的解释。此外,它允许用户发现尚未制定的问题的答案。 - 阶段 IX 分析结果的利用——
分析完成,结果可视化,现在是业务用户决定利用结果的时候了。结果可用于优化,细化业务流程。它也可以用作系统的输入以提高性能。
生命周期的框图如下:
从框图中可以明显看出,阶段VII,即探索性数据分析,被连续修改,直到它被令人满意地执行。重点放在纠错上。此外,如果没有取得令人满意的结果,可以从阶段 VIII 退回到阶段 VII。以这种方式,确保正确分析数据。