📜  Drew Conway 的数据科学图

📅  最后修改于: 2022-05-13 01:57:05.048000             🧑  作者: Mango

Drew Conway 的数据科学图

在进入Drew Conway 的数据科学维恩图之前,出现的第一个问题是,“什么是数据科学? ” 数据科学为不同的人打算各种各样的事情,但总而言之,数据科学是用数据来回答问题。这个定义是一个相当广泛的定义,那是因为必须说数据科学是一个相当广泛的领域!

简而言之,可以说数据科学涉及:

  • 统计学、计算机科学、数学
  • 数据清理和格式化
  • 数据可视化

所以我们已经讨论了数据科学是什么以及数据科学的关键支柱,但我们需要讨论的另一件事是数据科学家到底是谁?经济学家特别报告说,数据科学家的特点是:

但现在问题出现了,数据科学家具备哪些技能?为了回答这个问题,让我们讨论一下流行的维恩图Drew Conway 的数据科学维恩图,其中数据科学是三个领域的交集——实质性专业知识、黑客技能以及数学和统计知识

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

让我们稍微解释一下这个维恩图是什么意思,我们知道我们使用数据科学来回答问题——所以首先,我们需要在我们想问的领域有足够的经验,以便表达问题并理解什么样的数据与回答该问题相关。一旦我们有了我们的问题和相关数据,我们就会从数据科学所使用的数据类型中了解,通常需要进行大量的清理和格式化——这通常需要计算机编程技能。最后,一旦我们有了数据,我们需要检查它,这通常 传达数学和统计知识。

Drew Conway维恩图解释

在 Drew Conway 的数据科学维恩图中,数据的原色是

  • 黑客技能,
  • 数学和统计知识,以及
  • 实质性的专业知识

但问题是他为什么强调这三个? 所以让我们理解这个词为什么!

  • 众所周知,数据是数据科学的关键部分。数据是电子交易的商品;所以,要想进入这个市场,就需要会说hacker 。那么这条线是什么意思呢?能够在命令行管理文本文件,学习矢量化操作,算法思维;是成功的数据黑客黑客技能
  • 收集并清理数据后,下一步就是真正从中获得洞察力。为此,您需要使用适当的数学和统计方法,这至少需要对这些工具有基本的了解。这并不是说统计学博士学位需要成为熟练的数据科学家,但它确实需要了解普通的最小二乘回归是什么以及如何解释它。
  • 第三个重要部分是实质性的专业知识。根据 Drew Conway 的说法,“数据加上数学和统计只能让你学习机器学习” ,如果你感兴趣的话,这很好,但如果你从事数据科学,那就不行了。科学是关于实验和建立知识的,这需要一些关于世界的激励性问题和假设,这些问题可以被带到数据中并用统计方法进行测试。
  • 另一方面,“实质性的专业知识+数学和统计学知识是传统研究人员最多的地方”。博士水平的研究人员将大部分时间用于获取这些领域的专业知识,但很少有时间获取技术。部分原因是学术界的文化,这并没有补偿研究人员了解技术。
  • 最后,命名为“黑客技能加实质性专业知识危险区”。这就是他把“足够了解危险”的人放在哪里,这是图表中最值得怀疑的地方。在这个区域中,人们非常有能力提取和构建数据,可能与他们非常了解的领域相关,甚至可能知道足够的R来运行线性回归并报告系数;但他们需要了解这些系数的含义。正是从图中的这一部分,出现了“谎言、该死的谎言和统计数据”这一短语,因为无论是由于无知还是不喜欢这种技能重叠,人们都能够在不了解如何进行的情况下创建看似法律分析的内容他们到达那里或他们创造了什么。幸运的是,它需要故意无知才能获得黑客技能和实质性专业知识,而无需在此过程中学习一些数学和统计数据。