数据科学是一个跨学科领域,致力于从通常数量巨大的数据集中提取知识。该领域包括分析,准备分析数据以及呈现发现结果以为组织中的高层决策提供依据。因此,它融合了计算机科学,数学,静力学,信息可视化,图形和业务方面的技能。
In simple words, a pipeline in data science is “a set of actions which changes the raw (and confusing) data from various sources (surveys, feedbacks, list of purchases, votes, etc.), to an understandable format so that we can store it and use it for analysis.”
但是,除了存储和分析之外,重要的是要提出使用数据来解决的问题。这些问题将产生隐藏的信息,这将使我们有能力像向导一样预测结果。例如:
- 哪种类型的销售可以降低风险?
- 危机期间哪种产品的销量会更高?
- 哪种做法可以带来更多业务?
掌握了问题之后,现在我们可以看看数据科学管道中的内容。当原始数据进入管道时,无法确定其具有多少潜力。我们是数据科学家,他们在管道中急切地等待着,他们通过清洁,探索并最终以最佳方式利用它来挖掘其价值。因此,要了解其旅程,让我们进入管道。
原始数据在管道中经历了不同的阶段,这些阶段包括:
1)获取/获取数据
这个阶段涉及从互联网或内部/外部数据库中识别数据,并提取成有用的格式。必备技能:
- 分布式存储: Hadoop,Apache Spark / Flink。
- 数据库管理: MySQL,PostgresSQL,MongoDB。
- 查询关系数据库。
- 检索非结构化数据:文本,视频,音频文件,文档。
2)清理/清理数据
这是最耗时的阶段,需要更多的精力。它进一步分为两个阶段:
- 检查数据:
- 识别错误
- 识别缺失值
- 识别损坏的记录
- 清理数据:
- 替换或填充缺失的值/错误
必备技能:
- 编码语言: Python,R。
- 数据修改工具: Python库,Numpy,Pandas,R。
- 分布式处理: Hadoop,Map Reduce / Spark。
3)探索性数据分析
当数据到达流水线的这一阶段时,它不会出现错误和缺失值,因此适合使用可视化和图表查找模式。
必备技能:
- Python :NumPy,Matplotlib,Pandas,SciPy。
- R :GGplot2,Dplyr。
- 统计数据:随机抽样,推论。
- 数据可视化:Tableau。
4)建模数据
这是机器学习开始发挥作用的数据科学流水线阶段。借助机器学习,我们创建了数据模型。数据模型不过是统计意义上的一般规则,可以用作增强我们业务决策的预测工具。
必备技能:
- 机器学习:有监督/无监督算法。
- 评估方法。
- 机器学习库: Python (Sci-kit Learn,NumPy)。
- 线性代数和多元演算。
5)解释数据
类似于解释数据科学模型。永远记住,如果您不能向六岁的孩子解释它,那您自己也不理解。因此,沟通成为关键!!这是管道中最关键的阶段,通过使用心理技巧,正确的业务领域知识以及巨大的讲故事能力,您可以向非技术受众解释您的模型。
必备技能:
- 业务领域知识。
- 数据可视化工具:Tableau,D3.js,Matplotlib,ggplot2,Seaborn。
- 交流:演讲/演讲和报告/写作。
6)修订
随着业务性质的变化,引入了新功能,这些新功能可能会使现有模型降级。因此,从业务和数据科学家的角度来看,定期检查和更新都非常重要。
结论
数据科学与出色的机器学习算法无关,而与您使用这些算法提供的解决方案有关。确保您的管道从头到尾保持稳定,并确定准确的业务问题以提出精确的解决方案,这一点也很重要。