从文明的曙光到 2003 年,创造了 5 艾字节的信息,但现在每 2 天就创造了如此多的信息。
这是数据的时代。而在这个时代,数据科学家就是神!!!他们拥有极其多样化的技能,从数据管理到机器学习。这些多才多艺的魔术师主要负责根据公司要求使用自创的预测模型和自定义分析将数据转化为可操作的见解。
换句话说,在当前的数据时代,成为一名数据科学家是一项极其重要的工作。以至于哈佛商业评论的一篇文章甚至称其为“21 世纪最性感的工作” (这就是成为一个的动力!!)。而且,作为数据科学家的薪水非常高,平均年薪为1,022K ,这也无伤大雅。这就是本文是 2019 年成为数据科学家的完整指南的原因。如果您有兴趣了解有关数据科学的更多信息,可以遵循此路线图。
但是,数据分析师和数据科学家的角色差异之间仍然存在很多混淆,因此我们将以此开始我们的文章,然后转到其他主题,例如成为数据科学家的教育要求和技能要求。
数据分析师和数据科学家之间的区别
很明显,数据分析师和数据科学家都有与数据相关的工作描述。但是什么?!!这是许多人关于数据分析师和数据科学家之间差异的问题。所以让我们在这里消除这个疑问!
数据分析师使用数据来解决各种问题并为公司获得可操作的见解。这是通过在定义明确的数据集上使用各种工具来回答企业问题来完成的,例如“为什么营销活动在某些地区更有效”或“为什么本季度产品销量下降”等。为此,数据分析师具备的基本技能是数据挖掘、R、SQL、统计分析、数据分析等。事实上,许多数据分析师获得了所需的额外技能,成为数据科学家。
另一方面,数据科学家可以设计新的数据建模流程和算法,创建预测模型并根据公司要求对数据进行自定义分析。因此,主要区别在于数据科学家可以利用大量编码来设计数据建模过程,而不是像数据分析师那样使用预先存在的数据从数据中获取答案。为此,数据科学家拥有的基本技能是数据挖掘、R、SQL、机器学习、Hadoop、统计分析、数据分析、OOPS等。所以数据科学家的薪水比数据分析师高的原因是他们的高技能水平加上高需求和低供应!
成为数据科学家的教育要求
作为数据科学家,有很多途径可以实现您的目标,您可以遵循其中任何一条!但请记住,这些路径中的大多数都需要通过大学,因为四年制学士学位是最低要求(硕士和博士学位当然不会受到伤害!!!)
最直接的途径是您完成数据科学学士学位,因为这显然会教会您收集、分析和解释大量数据所需的技能。您将学习有关统计、分析技术、编程语言等的所有知识,这些知识只会对您作为数据科学家的工作有所帮助。
您可以采取的另一个迂回路径是完成任何有助于您成为数据科学家角色的技术学位。其中一些是计算机科学、统计学、数学、经济学等。完成学位后,您将拥有可应用于数据科学的编码、数据处理、定量问题解决等技能。然后你可以找到一份入门级工作或完成硕士和博士学位。获取更专业的知识。
成为数据科学家的技能要求
每个数据科学家忍者都必须拥有他们的工具!因此,数据科学家需要跨越不同领域的多种技能。其中大部分在下面提到:
1. 统计分析:作为数据科学家,您的主要工作是收集、分析和解释大量数据,并为公司提供可操作的见解。所以显然统计分析是工作描述的重要组成部分!!!
这意味着您应该至少熟悉统计分析的基础知识,包括统计检验、分布、线性回归、概率论、最大似然估计器等。这还不够!虽然了解哪些统计技术对于给定的数据问题是有效的方法很重要,但了解哪些不是。此外,有许多分析工具对作为数据科学家的统计分析非常有帮助。其中最流行的是 SAS、Hadoop、Spark、 Hive、Pig 等。因此,对它们有透彻的了解非常重要。
2. 编程技能:编程技能是您作为数据科学家的必备工具!这是因为如果您可以根据需要使用某些算法,那么研究和理解数据以得出有用的结论要容易得多。
通常, Python和 R 是用于此目的的最常用语言。Python是因为它具有统计分析能力和易读性。 Python还具有用于机器学习、数据可视化、数据分析等的各种包(如 Scikitlearn),使其适用于数据科学。在 e1071、rpart 等软件包的帮助下,R 还可以非常轻松地解决数据科学中的几乎所有问题。
3. 机器学习:如果您与科技行业有任何联系,那么您很有可能听说过机器学习!它基本上使机器能够从经验中学习任务,而无需专门对其进行编程。这是通过使用数据和不同算法使用各种机器学习模型训练机器来完成的。
所以你需要熟悉机器学习中的有监督和无监督学习算法,如线性回归、逻辑回归、K 均值聚类、决策树、K 最近邻等。 幸运的是,大多数机器学习算法都可以使用 R 或Python库(上面提到过!)所以你不需要成为它们的专家。您需要的专业知识是能够根据您拥有的数据类型和您尝试自动化的任务了解需要哪种算法。
4. 数据管理和数据整理:数据在数据科学家的生活中扮演着重要的角色(显然!)。因此,您需要精通涉及数据提取、转换和加载的数据管理。这意味着您必须从各种来源提取数据,然后将其转换为分析所需的格式,最后将其加载到数据仓库中。为了处理这些数据,有各种可用的框架,如 Hadoop、Spark 等。
现在您已经完成了数据管理的过程,您还需要熟悉数据整理。现在,你问什么是数据整理?嗯,这基本上意味着仓库中的数据需要以连贯的方式进行清理和统一,然后才能对其进行分析以获得任何可操作的见解。
5. 数据直觉:不要低估数据直觉的力量!事实上,将数据科学家与数据分析师区分开来的是主要的非技术技能。数据直觉基本上涉及在数据中寻找没有模式的模式!这几乎就像大海捞针,这是巨大的未开发数据堆中的实际潜力。
数据直觉不是一项可以轻松教授的技能。相反,它来自经验和持续的实践。反过来,这会让您在担任数据科学家的角色中更加高效和有价值。
6. 沟通技巧:要成为专家数据科学家,您还必须擅长沟通技巧!这是因为虽然您比其他任何人都更了解数据,但您需要将数据发现转化为量化见解,以便非技术团队协助决策。
这也可能涉及数据讲故事!因此,您应该能够以讲故事的形式呈现您的数据,并提供具体的结果和价值,以便其他人能够理解您在说什么。那是因为最终,数据分析不如可以从数据中获得的可操作见解重要,而后者又将导致业务增长。