📜  什么是数据科学管道?

📅  最后修改于: 2021-04-17 02:24:36             🧑  作者: Mango

数据科学是一个跨学科领域,致力于从通常数量巨大的数据集中提取知识。该领域包括分析,准备分析数据以及呈现发现结果以为组织中的高层决策提供依据。因此,它融合了计算机科学,数学,静力学,信息可视化,图形和业务方面的技能。

但是,除了存储和分析之外,重要的是要提出使用数据来解决的问题。这些问题将产生隐藏的信息,这将使我们有能力像向导一样预测结果。例如:

  • 哪种类型的销售可以降低风险?
  • 危机期间哪种产品的销量会更高?
  • 哪种做法可以带来更多业务?

掌握了问题之后,现在我们可以看看数据科学管道中的内容。当原始数据进入管道时,无法确定其具有多少潜力。我们是数据科学家,他们在管道中急切地等待着,他们通过清洁,探索并最终以最佳方式利用它来挖掘其价值。因此,要了解其旅程,让我们进入管道。

原始数据在管道中经历了不同的阶段,这些阶段包括:

1)获取/获取数据

这个阶段涉及从互联网或内部/外部数据库中识别数据,并提取成有用的格式。必备技能:

  • 分布式存储: Hadoop,Apache Spark / Flink。
  • 数据库管理: MySQL,PostgresSQL,MongoDB。
  • 查询关系数据库。
  • 检索非结构化数据:文本,视频,音频文件,文档。

2)清理/清理数据

这是最耗时的阶段,需要更多的精力。它进一步分为两个阶段:

  • 检查数据:
    • 识别错误
    • 识别缺失值
    • 识别损坏的记录
  • 清理数据:
    • 替换或填充缺失的值/错误

必备技能:

  • 编码语言: Python,R。
  • 数据修改工具: Python库,Numpy,Pandas,R。
  • 分布式处理: Hadoop,Map Reduce / Spark。

3)探索性数据分析

当数据到达流水线的这一阶段时,它不会出现错误和缺失值,因此适合使用可视化和图表查找模式。

必备技能:

  • Python :NumPy,Matplotlib,Pandas,SciPy。
  • R :GGplot2,Dplyr。
  • 统计数据:随机抽样,推论。
  • 数据可视化:Tableau。

4)建模数据

这是机器学习开始发挥作用的数据科学流水线阶段。借助机器学习,我们创建了数据模型。数据模型不过是统计意义上的一般规则,可以用作增强我们业务决策的预测工具。

必备技能:

  • 机器学习:有监督/无监督算法。
  • 评估方法。
  • 机器学习库: Python (Sci-kit Learn,NumPy)。
  • 线性代数和多元演算。

5)解释数据

类似于解释数据科学模型。永远记住,如果您不能向六岁的孩子解释它,那您自己也不理解。因此,沟通成为关键!!这是管道中最关键的阶段,通过使用心理技巧,正确的业务领域知识以及巨大的讲故事能力,您可以向非技术受众解释您的模型。

必备技能:

  • 业务领域知识。
  • 数据可视化工具:Tableau,D3.js,Matplotlib,ggplot2,Seaborn。
  • 交流:演讲/演讲和报告/写作。

6)修订

随着业务性质的变化,引入了新功能,这些新功能可能会使现有模型降级。因此,从业务和数据科学家的角度来看,定期检查和更新都非常重要。

结论

数据科学与出色的机器学习算法无关,而与您使用这些算法提供的解决方案有关。确保您的管道从头到尾保持稳定,并确定准确的业务问题以提出精确的解决方案,这一点也很重要。