📜  解决数据分析问题的概念框架

📅  最后修改于: 2022-05-13 01:58:07.526000             🧑  作者: Mango

解决数据分析问题的概念框架

数据科学是一个跨学科领域,专注于从通常数量巨大的数据集中提取知识。该领域包括分析、准备用于分析的数据以及呈现结果以告知组织的高层决策。因此,它融合了计算机科学、数学、静力学、信息可视化、图形和商业方面的技能。

现在在很多情况下,就数据分析问题而言,通常从一个非常不明确的问题开始,例如,人们会说在典型的工业场景中,有一种感觉,周围有很多数据,并且每个人似乎都在建议,一个人应该能够使用这种大数据为他/她的组织带来一些价值。那么,问题是他/她是如何做到的?

所以通常人们首先会说有很多数据,他/她可以用这些数据做什么?人们可能会简单地说他想提高性能或尽量减少维护问题等等。因此,人们可以开始谈论一类问题,这些问题可能与性能有关,也可能与改进按时做事的操作等有关。因此,通常一个人从一组松散的词、对问题的模糊定义以及他/她拥有的数据开始。现在的问题是将一个人的思维过程推向可编码的东西,可以处理数据以获取价值以解决他/她正在解决的任何问题等等。虽然这在某种程度上是目前一些非结构化过程,但优秀的数据科学家提出了一个有意义的解决方案流程,并且与需要解决的问题相关。

  • 问题陈述:首先得到的是一个问题的到来,有很多非常分散的问题陈述。因此,第 1 步是将其尽可能精确地转换为一个问题陈述或一组问题陈述,然后解决该问题应该进行所谓的问题表征/问题概念化。
  • 问题概念化:因此,将这个高级问题陈述分解为子问题,并绘制一个流程,说如果他解决了这个子问题,那么他将在这个子问题中使用这个结果,依此类推。因此,人们可以将其视为他正在使用这些子问题绘制的流程图,并且一般而言,如果可能的话,他会达到一个粒度级别,在那里他可以识别子问题属于函数逼近问题或分类问题的问题类别。因此,人们可以将这些问题识别为函数逼近或分类问题。
  • 解决方案概念化:因此,这就是我们查看解决方案概念化的地方。再次,必须在这里做出假设。因此,人们可以对关于线性和非线性的分布、非线性的类型等做出假设。在这里,如果人们可以绘制流程图并在脑海中浮现出一些图片,那么解决这个问题就变得容易了。
  • 方法识别:然后一旦将解决方案概念化,那么对于这些子模型中的每一个,我们的子模块必须识别一种方法,并且该方法的识别应由他之前所做的假设决定。人们必须查看假设并为解决方案选择正确的方法,如果事实证明对于他所做的那种假设他不喜欢那里的任何方法,那么他将对现有算法进行一些调整位,然后找到一种有用的方法或可以解决他的问题的方法。
  • 解决方案的实现:一旦这样做,他就会在选择的某个软件环境中实现解决方案,然后他得到解决方案并评估假设是否良好,解决方案是否满足他的要求,如果满足,他就完成了,或者如果他不应该回去重新审视他的假设,然后看看他如何改变或修改他的假设,以便他得到一个他满意的解决方案。