在了解什么是数据科学、数据科学的关键支柱、数据科学家的角色和职责之后,出现的主要问题之一是为什么我们需要数据科学?但在跳到这个问题之前,让我们简要讨论一下为什么要做数据科学?这件事会激励你更多地了解数据科学。
为什么要做数据科学?
说到需求,对具有数据科学技能的个人有着巨大的需求。根据 LinkedIn 美国新兴就业报告,2020 年数据科学家排名第三,年增长率为 37%。该领域连续三年位居新兴工作岗位榜首。此外,根据 Glassdoor 列出的美国前 50 名最令人满意的工作,数据科学家是2020 年美国第三大工作,基于工作满意度(4.0/5)、薪水(107,801 美元)和需求。根据 StackOverflow 开发人员调查,2020 年 – 开发人员角色,大约8.1%的受访者认为是数据科学家或机器学习专家。
所以这是进入数据科学的好时机——我们不仅有更多的数据,还有更多的收集、仓储和解释数据的工具,而且对数据科学家的需求正在不断增长,并且在许多领域被认为是必不可少的。不同的部门,而不仅仅是商业和学术界。那么现在进入正题。
为什么我们需要数据科学?
你可能会注意到,有“数据”一词中的“数据科学”。那么实际数据是什么呢?让我们简要讨论一下术语数据。
什么是数据?
由于我们已经花了一些时间讨论什么是数据科学,因此有必要花一些时间来了解数据究竟是什么。维基百科将数据定义为,
A set of values of qualitative or quantitative variables.
这个定义更侧重于数据意味着什么。尽管这是一个相当简短的定义。让我们花一点时间来解析它并分别关注每个组件。
- 一组值:第一个要关注的术语是“一组值” ——要获得数据,我们需要包含一组值。在统计学中,这组值被称为人口。例如,回答您的问题所需的那组值可能是所有网站或应用程序,也可能是所有获得特定药物的人或访问特定网站的人的集合。但一般来说,它是一组您将要对其进行测量的事物。
- 变量:接下来要关注的是“变量” ——变量是一个项目的度量或特征。例如,您可以测量一个人的体重,或者估算一个人访问网站或应用程序的时间。或者它可能是您试图衡量的另一个定性特征,例如一个人在网站上点击了什么,或者您认为访问的人是男性还是女性。
- 定性和定量变量:最后,我们有“定性和定量变量”。定性变量是关于质量的信息。它们是诸如原籍国、性别、宗教等之类的东西。它们通常用文字而不是数字来表示,并且它们没有索引或排序。另一方面,定量变量是关于数量的信息。定量测量通常用数字表示,并按恒定的有序尺度进行估计;它们类似于体重、身高、年龄和血压。
在简要了解数据之后,当涉及到数据科学世界时,我们经常听到另一个术语“大数据”。所以它值得在这里介绍——因为它是数据科学兴起不可或缺的一部分。
什么是大数据?
大数据的字面意思是大量的数据。大数据是这一想法背后的支柱,即人们可以对大量数据进行有用的推断,而这在以前使用较小的数据集是不可能的。因此,可以通过计算分析极大的数据集,以揭示不透明或不易识别的模式、趋势和关联。
为什么每个人都对大数据感兴趣?
Big data is everywhere!
每次你上网并做一些收集数据的事情时,每次你从电子商务之一购买东西时,你的数据都会被收集。每当您去商店时,数据都是在销售点收集的,当您进行银行交易时,数据就在那里,当您访问Facebook、Twitter 等社交网络时,这些数据都会被收集。现在,这些是更多的社会数据,但同样的事情开始发生在真正的工程工厂中。从世界各地的工厂收集实时数据。如果您进行更复杂的模拟,分子模拟,不仅会产生这些,还会生成大量的数据,这些数据也会被收集和存储。
大数据有多少数据?
- Google每天处理 20 PB (2008)
- Facebook拥有 2.5 PB 的用户数据 + 每天 15 TB(2009 年)
- eBay拥有 6.5 PB 的用户数据 + 每天 50 TB (2009)
- CERN 的大型强子对撞机 (LHC)每年产生 15 PB
因此,近年来数据科学加速发展的原因之一是当前可用和正在生成的大量数据(例如大数据)。不仅收集了关于世界和我们生活的许多方面的大量数据,而且我们同时还拥有廉价计算的兴起。这形成了一场完美的风暴,我们在其中拥有丰富的数据和分析工具。提高计算机内存容量、更强大的软件、更能干的处理器,现在,更多的数据科学家有能力使用这些技术并使用数据解决问题!这就是很大的原因,为什么我们需要在未来数据的科学。