在本文中,我们将讨论数据分析的生命周期阶段,其中我们将涵盖各个生命周期阶段,并将对其进行逐一讨论。
数据分析生命周期:
数据分析生命周期专为大数据问题和数据科学项目而设计。该循环是迭代的,代表真实的项目。为了满足在大数据上执行分析的独特要求,需要逐步的方法来组织与获取,处理,分析和重新利用数据有关的活动和任务。
- 阶段1:发现–
- 数据科学团队学习并调查问题。
- 发展背景和理解。
- 了解有关该项目所需和可用的数据源的信息。
- 该团队制定了最初的假设,以后可以用数据对其进行检验。
- 阶段2:数据准备–
- 在建模和分析之前探索,预处理和调节数据的步骤。
- 它需要存在一个分析沙箱,团队才能执行,加载和转换,以将数据导入沙箱。
- 数据准备任务可能会多次执行,而不是按预定义的顺序执行。
- 此阶段常用的几种工具是Hadoop,Alpine Miner,Open Refine等。
- 阶段3:模型规划–
- 团队探索数据以了解变量之间的关系,然后选择关键变量和最合适的模型。
- 在此阶段,数据科学团队开发用于培训,测试和生产目的的数据集。
- 团队根据在模型计划阶段完成的工作来构建和执行模型。
- 此阶段常用的几种工具是– STLAB,Matlab。
- 阶段4:模型构建–
- 团队开发用于测试,培训和生产目的的数据集。
- 团队还考虑了其现有工具是否足以运行模型,或者它们是否需要更强大的环境来执行模型。
- 免费或开源工具– Rand PL / R,Octave,WEKA。
- 商业工具– Matlab,STASTICA。
- 阶段5:沟通结果–
- 执行模型后,团队需要将建模结果与为成功和失败建立的标准进行比较。
- 团队考虑到警告和假设,考虑如何最好地向各个团队成员和利益相关者表达发现和结果。
- 团队应识别关键发现,量化业务价值,并开发叙述以总结发现并将结果传达给利益相关者。
- 阶段6:运作–
- 团队更广泛地交流项目的收益,并建立试点项目,以受控方式部署工作,然后再将工作范围扩大到整个用户企业。
- 这种方法使团队能够以小规模了解生产环境中模型的性能和相关约束,并在完全部署之前进行调整。
- 团队提供最终报告,简报和代码。
- 免费或开源工具– Octave,WEKA,SQL,MADlib。