数据科学项目的结构
在本文中,提到了数据科学项目的5 个阶段——
- 提问阶段:
- 这是数据科学项目中最重要的阶段
- 提问阶段可帮助您了解数据并决定分析类型
- 一些 SQL 查询的结果会过滤您的数据并回答您的问题
- 要从更大的数据集中提取数据,可以使用分布式存储,如 Apache Hadoop、Spark 或 Flink
- 有6种类型的问题:
- 描述性问题:当您需要分析数据的特征时,会提出描述性问题
- 探索性问题:提出探索性问题以查找数据之间的现有模式、趋势或关系
- 推理问题:推理问题不能直接回答,它可以有多个答案。您可以通过查看其他数据集得出答案。
- 因果问题:提出因果问题以确保更改一个属性不会影响其他属性
- 预测问题:当您更专注于预测结果时,会提出预测问题
- 机械问题:询问动作如何产生预期结果的问题
- 探索性数据分析:
- EDA 有两个主要目标——
- 检查您拥有的数据是否适合回答您的问题
- 开始制定解决方案的草图。这可以在没有任何正式建模或统计测试的情况下完成
- 制定问题是为了启动探索性数据分析过程并限制从数据集分心的可能性
- 现在,应该仔细阅读数据。大多数情况下,数据会很混乱,并且包含不相关或不适当的数据。要删除不需要的数据,应进行数据清理。有时,也可以使用已经清理过的数据
- 检查您的数据集是否包含所需的所有数据
- 确保数据与数据集之外的内容相匹配很重要。进行外部验证很简单,只需根据一个数字检查您的数据。
- 绘制和可视化数据是理解数据的好方法。绘图可以发生在数据分析的不同阶段。它还可以帮助您不偏离您的期望。
- 可以询问以下问题来检查您是否正在进行分析
- 你有正确的数据吗?
- 您需要其他数据吗?
- 你有正确的问题吗?
- EDA 有两个主要目标——
- 正式建模
- 如果您的草图有效,则意味着您获得了正确的数据
- 写下你试图估计的参数
- 如果你到达这个阶段,并不意味着你的数据一直都是正确的
- 通过敏感性分析等多种方法挑战您的结果
- 还要确保您的数据和使用的算法是可重复的,因为可能会出现此项目将成为另一个新分析的基础的情况
- 解释
- 在这一点上,你可能已经做了很多不同的分析
- 这个阶段是收集分析后获得的所有信息
- 它有助于过滤你得到的结果
- 如果您将代码运送到另一个集群或自建分布式系统进行调优,将会很有帮助
- 模型的预测能力在于其泛化能力。
- 沟通阶段
- 一旦数据科学项目成功,就应该将结果传达给某种受众
- 这是一个必不可少的阶段,因为它会通知数据分析过程并将您的发现转化为行动
- 确保您的项目结果可视化以便快速理解
- 在此阶段,不考虑技术技能。所需的基本技能是您需要能够讲述一个清晰且可操作的故事
另一个非正式阶段是决策阶段。