根据哈佛商业评论,数据科学家是“21 世纪最性感的工作”。这还不够了解更多数据科学吗!在数据空间的世界中,当组织处理 PB 和 EB 的数据时,大数据时代就出现了。直到 2010 年,行业对于数据的存储变得非常困难。现在,当Hadoop等流行框架解决存储问题时,重点是处理数据。在这里,数据科学发挥着重要作用。如今,数据科学的发展以各种方式增长,因此人们应该通过了解数据科学是什么以及我们如何为其增加价值来为未来做好准备。
什么是数据科学?
所以现在出现的第一个问题是,“什么是数据科学? ” 数据科学对不同的人意味着不同的东西,但从本质上讲,数据科学是使用数据来回答问题。这个定义是一个中等宽泛的定义,那是因为必须说数据科学是一个中等宽泛的领域!
Data science is the science of analyzing raw data using statistics and machine learning techniques with the purpose of drawing conclusions about that information.
简而言之,可以说数据科学涉及:
- 统计学、计算机科学、数学
- 数据清理和格式化
- 数据可视化
如今,大家都知道数据科学的流行程度。现在出现的问题是,为什么是数据科学(首先确定目标?),如何开始?从哪儿开始?应该涵盖哪些主题?等等,你是否需要从一本书中学习所有概念,或者你应该学习一些在线教程,或者你应该通过做一些项目来学习数据科学?所以在这篇文章中,我们将详细讨论所有这些事情。
为什么是数据科学? (先确定目标?)
因此,在进入完整的数据科学路线图之前,他/她应该有一个明确的目标,即他/她为什么要学习数据科学?是为了“ 21世纪最性感的工作”这句话吗?是为了你的大学学术项目吗?还是为了你的长期职业?或者您想将您的职业转向数据科学家世界?所以首先要明确目标。你为什么想学习数据科学?例如,如果你想为你的大学学术项目学习数据科学,那么只学习数据科学的初学者就足够了。同样,如果你想建立自己的长期职业生涯,那么你也应该学习专业或高级的东西。您必须详细介绍所有先决条件。因此,这取决于您,您可以决定为什么要学习数据科学。
如何学习数据科学?
通常,数据科学家来自不同的教育和工作经验背景,大多数应该精通,或者在理想情况下是四个关键领域的大师。
- 领域知识
- 数学技能
- 计算机科学
- 交流技能
领域知识
大多数人认为领域知识在数据科学中并不重要,但它非常重要。举个例子:如果你想成为银行业的数据科学家,并且你有更多关于银行业的信息,比如股票交易、金融知识等。所以这对你和你的团队都非常有益。银行本身会比普通申请人更偏爱这类申请人。
数学技能
线性代数、多元微积分和优化技术,这三件事非常重要,因为它们帮助我们理解在数据科学中发挥重要作用的各种机器学习算法。同样,理解统计学非常重要,因为这是数据分析的一部分。概率对于统计学也很重要,它被认为是掌握机器学习的先决条件。
计算机科学
计算机科学还有很多东西要学。但是当谈到编程语言时,出现的主要问题之一是:
Python or R for Data Science?
选择哪种语言用于数据科学有多种原因,因为两者都有丰富的库来实现复杂的机器学习算法、可视化、数据清理。请参阅数据科学中的 R vs Python以了解更多信息。
But my recommendation is one must have knowledge of both the programming language to become a successful data scientist.
除了编程语言之外,您必须学习的其他计算机科学技能是:
- 数据结构和算法基础
- SQL
- MongoDB
- Linux
- 吉特
- 分布式计算
- 机器学习和深度学习等。
交流技能
它包括书面和口头交流。在数据科学项目中发生的事情是在从分析中得出结论之后,该项目必须传达给其他人。有时,这可能是您发送给工作中的老板或团队的报告。其他时候它可能是一篇博客文章。通常,它可能是向一群同事进行的演示。无论如何,数据科学项目总是涉及项目发现的某种形式的交流。因此,成为数据科学家必须具备沟通技巧。
学习资源
网上有很多资源和视频,对于从哪里开始学习所有概念的人来说,这很令人困惑。最初,作为初学者,如果您对这么多概念感到不知所措,请不要害怕并停止学习。要有耐心,探索并坚持下去。
GeeksforGeeks 提供了一些有用的学习资源链接:
- 数学
- Python
- 电阻
- SQL
- 数据结构
- 机器学习
学习路线图
从数据科学概述开始。阅读一些与数据科学相关的博客,并研究一些与数据科学相关的东西。例如阅读关于数据科学导论、为什么选择数据科学作为职业、从数据科学中受益最多的行业、2020 年要学习的 10 大数据科学技能等的博客,并进行完整的思想化妆开始您的数据科学之旅。让自己有动力学习数据科学,并在数据科学上建立一些很棒的项目。定期这样做,并开始一一学习数据科学的新概念。在开始你的旅程之前,参加一些关于数据科学的研讨会或会议会更好。明确你的目标并朝着你的目标前进。
1) 数学
数学技能非常重要,因为它们可以帮助我们理解在数据科学中发挥重要作用的各种机器学习算法。
- 第1部分:
- 线性代数
- 解析几何
- 矩阵
- 矢量微积分
- 优化
- 第2部分:
- 回归
- 降维
- 密度估计
- 分类
2)概率
概率对统计学也很重要,它被认为是掌握机器学习的先决条件。
- 概率导论
- 一维随机变量
- 一个随机变量的函数
- 联合概率分布
- 离散分布
- 二项式(Python | R)
- 伯努利
- 几何等
- 持续分发
- 制服
- 指数
- 伽玛
- 正态分布(Python | R)
3)统计
理解统计学非常重要,因为这是数据分析的一部分。
- 统计学概论
- 数据说明
- 随机样本
- 抽样分布
- 参数估计
- 假设检验(Python | R)
- 方差分析(Python | R)
- 可靠性工程
- 随机过程
- 计算机模拟
- 实验设计
- 简单线性回归
- 相关性
- 多重回归(Python | R)
- 非参数统计
- 签名测试
- Wilcoxon 有符号秩检验 (R)
- Wilcoxon 秩和检验
- Kruskal-Wallis 测试 (R)
- 统计质量控制
- 图的基础
4)编程
需要很好地掌握编程概念,例如数据结构和算法。使用的编程语言是Python、 R 、 Java 、 Scala 。 C++在一些性能非常重要的地方也很有用。
- Python:
- Python基础
- 列表
- 放
- 元组
- 字典
- 函数等
- NumPy
- 熊猫
- Matplotlib/Seaborn 等
- Python基础
- 回复:
- R基础知识
- 向量
- 列表
- 数据帧
- 矩阵
- 大批
- 函数等
- dplyr
- ggplot2
- 蒂迪尔
- 闪亮等。
- R基础知识
- 数据库:
- SQL
- MongoDB
- 其他:
- 数据结构
- 时间复杂度
- 网页抓取(Python | R)
- Linux
- 吉特
- 数据结构
参考:
- Python
- 电阻
- SQL
- 数据结构
5) 机器学习
ML 是数据科学中最重要的部分之一,也是研究人员中最热门的研究课题,因此每年都会在这方面取得新的进展。至少需要了解监督学习和无监督学习的基本算法。 Python和 R 中有多个库可用于实现这些算法。
- 介绍:
- 模型的工作原理
- 基础数据探索
- 第一个机器学习模型
- 模型验证
- 欠拟合和过拟合
- 随机森林(Python | R)
- scikit 学习
- 中间的:
- 处理缺失值
- 处理分类变量
- 管道
- 交叉验证 (R)
- XGBoost (Python | R)
- 数据泄露
6)深度学习
深度学习使用 TensorFlow 和 Keras 为结构化数据构建和训练神经网络。
- 人工神经网络
- 卷积神经网络
- 循环神经网络
- TensorFlow
- 凯拉斯
- 火炬
- 单个神经元
- 深度神经网络
- 随机梯度下降
- 过拟合和欠拟合
- Dropout 批量归一化
- 二元分类
7)特征工程
在特征工程中发现改进模型的最有效方法。
- 基线模型
- 分类编码
- 特征生成
- 特征选择
8)自然语言处理
在 NLP 中,通过学习处理文本数据来区分自己。
- 文本分类
- 词向量
9) 数据可视化工具
制作出色的数据可视化。一种了解编码力量的好方法!
- excel VBA
- BI(商业智能):
- 表
- 商业智能
- Qlik 视图
- Qlik Sense
10) 部署
最后一部分是进行部署。当然,无论你是新人还是5年以上的经验,或者10年以上的经验,部署都是必要的。因为部署肯定会给你一个事实,那就是你工作了很多。
- 微软 Azure
- 赫鲁库
- 谷歌云平台
- 烧瓶
- 詹戈
11) 其他学习要点
- 领域知识
- 交流技能
- 强化学习
- 不同的案例研究:
- Netflix 的数据科学
- Flipkart 的数据科学
- 信用卡欺诈检测项目
- 电影推荐项目等
12) 继续练习
“Practice makes a man perfect” which tells the importance of continuous practice in any subject to learn anything.
因此,请每天继续练习和提高您的知识。下面是数据科学家路线图的完整图示。