在数据空间的世界中,当组织处理 PB 和 EB 的数据时,大数据时代就出现了。直到 2010 年,行业对于数据的存储变得非常艰难。现在,当Hadoop等流行框架解决存储问题时,重点是处理数据。在这里,数据科学发挥着重要作用。如今,数据科学的发展以各种方式增长,人们应该通过了解数据科学是什么以及我们如何为其增加价值来为未来做好准备。
数据科学对不同的人意味着不同的东西,但从本质上讲,数据科学是使用数据来回答问题。这个定义是一个中等宽泛的定义,那是因为必须说数据科学是一个中等宽泛的领域!
Data science is the science of analyzing raw data using statistics and machine learning techniques with the purpose of drawing conclusions about that information.
因此,在了解了数据科学是什么以及数据科学的关键支柱之后,我们还需要讨论的另一件事是数据科学家究竟是谁?经济学人特别报告称,数据科学家被定义为:
“who integrates the skills of software programmer, statistician and storyteller slash artist to extract the nuggets of gold hidden under mountains of data”
但在现实中,会出现很多问题。一些重要的问题是:数据科学家的角色是什么?数据科学家的职责是什么?数据科学家与数据分析师和数据工程师有何不同?那么让我们讨论这些类型的问题,以详细了解谁是数据科学家?
数据科学家的角色和职责
- 管理:数据科学家扮演着微不足道的管理角色,他支持在数据和分析领域内构建未来主义和技术能力的基础,以协助各种计划和持续的数据分析项目。
- 分析:数据科学家代表一个科学角色,他计划、实施和评估高级统计模型和策略,以便在业务最复杂的问题中应用。数据科学家为各种问题开发计量经济学和统计模型,包括预测、分类、聚类、模式分析、抽样、模拟等。
- 战略/设计:数据科学家在创新战略的推进中发挥着至关重要的作用,以了解企业的消费者趋势和管理以及解决困难业务问题的方法,例如优化产品履行和整体利润。
- 协作:数据科学家的角色不是一个单独的角色,在这个职位上,他与优秀的数据科学家合作,将障碍和发现传达给相关利益相关者,以努力提高业务绩效和决策制定。
- 知识:数据科学家还带头探索不同的技术和工具,以最灵活可行的速度为企业创建创新的数据驱动洞察力。在这种情况下,数据科学家还主动为业务评估和利用新的和增强的数据科学方法,并将其交付给高级管理层批准。
- 其他职责:数据科学家还执行高级数据科学家、数据科学主管、首席数据官或雇主分配的相关任务和任务。
数据科学家、数据分析师和数据工程师之间的区别
数据科学家、数据工程师和数据分析师是数据科学中最常见的三个职业。因此,让我们通过将其与类似的工作进行比较来了解谁是数据科学。
Data Scientist |
Data Analyst |
Data Engineer |
---|---|---|
The focus will be on the futuristic display of data. | The main focus of a data analyst is on optimization of scenarios, for example how an employee can enhance the company’s product growth. | Data Engineers focus on optimization techniques and the construction of data in a conventional manner. The purpose of a data engineer is continuously advancing data consumption. |
Data scientists present both supervised and unsupervised learning of data, say regression and classification of data, Neural networks, etc. | Data formation and cleaning of raw data, interpreting and visualization of data to perform the analysis and to perform the technical summary of data. | Frequently data engineers operate at the back end. Optimized machine learning algorithms were used for keeping data and making data to be prepared most accurately. |
Skills required for Data Scientist are Python, R, SQL, Pig, SAS, Apache Hadoop, Java, Perl, Spark. | Skills required for Data Analyst are Python, R, SQL, SAS. | Skills required for Data Engineer are MapReduce, Hive, Pig Hadoop, techniques. |
一些鼓舞人心的数据科学家
通过查看数据科学家的例子,可以体现使用数据科学的各种领域。
- Hilary Mason:她是 Fast Forward labs 的联合创始人,这是一家机器学习公司,最近由数据科学公司Cloudera 拥有。她是 Accel 的数据科学家。从广义上讲,她使用数据来解决有关挖掘网络的问题,并学习人们如何通过社交媒体相互交流的方法。
- Nate Silver:他是当今世界上最杰出的数据科学家或统计学家之一。他是 FiveThirtyEight 的创始人。 FiveThirtyEight 是一个应用统计分析来讲述有关选举、政治、体育、科学和生活方式的引人入胜故事的网站。他利用大量公共数据来预测各种主题;最突出的是,他预测谁将赢得美国大选,并且在准确性方面有着非凡的记录。
- 达里尔·莫雷:他是美国篮球队休斯顿火箭队的总经理。基于他的计算机科学学士学位和麻省理工学院的 MBA 学位,他被授予 GM 的职位