📜  数据科学导论:所需技能

📅  最后修改于: 2021-10-27 06:45:28             🧑  作者: Mango

数据科学是科学方法、过程、算法和系统的跨学科领域,用于从各种形式的数据中提取知识或见解,无论是结构化的还是非结构化的,类似于数据挖掘。

大数据分析或数据科学是 IT 行业中一个非常常见的术语,因为每个人都知道这是一个奇特的术语,它将帮助我们处理这些天生成的大量数据。

让我们找出所需的技能是:

数据科学

  1. 数学技能:
    • 多变量微积分和线性代数:这两件事非常重要,因为它们帮助我们理解在数据科学中起着重要作用的各种机器学习算法。
    • 概率与统计:了解统计非常重要,因为这是数据分析的一个分支。概率论对统计学也很重要,它被认为是学习机器学习的先决条件。
  2. 编程技巧:
    • 编程知识:您需要很好地掌握编程概念,例如
      数据结构和算法。使用的语言有Python、R、 Java、Scala。 C++ 也用于一些性能极其重要的地方。
    • 关系数据库:您需要了解 SQL 或 Oracle 等数据库,以便您可以在需要时从中获取所需的数据。
    • 非关系数据库:这些类型很多,但最常用的类型是:
      i) 专栏:Cassandra、HBase
      ii) 文档:MongoDB、CouchDB
      iii) 键值:Redis、Dynamo
    • 分布式计算:处理大量数据是最重要的技能之一,因为我们无法在单个系统上处理这么多数据。主要使用的工具是Apache Hadoop和Spark。它有两个主要部分: HDFS,即 Hadoop 分布式文件系统,用于在分布式文件系统上存储数据。另一部分是我们处理数据的 map-reduce。我们可以在Java或Python程序中编写 map reduce 。还有许多其他工具,例如 PIG、HIVE。
    • 机器学习:它是数据科学最重要的部分之一,也是研究人员最热门的研究课题,因此每年都有新的发展。你至少需要知道有监督学习和无监督学习的常用算法。 Python和 R 中有许多可用的库。

      Python库列表
      i) 基础库:NumPy、SciPy、Pandas、Ipython、matpolib
      ii) 机器学习库:scikit-learn、Theano、TensorFlow
      iii) 用于数据挖掘和自然语言处理的库:Scrapy、NLTK、Pattern

  3. 领域知识
    大多数人都忽略了这种想法,这并不重要,但非常非常重要。数据科学的全部目的是从这些数据中提取有用的见解,以便它对公司的业务有益。如果你不了解你公司的业务方面,你公司的商业模式是如何运作的,以及你如何不能做得更好,那么你对公司毫无用处。您需要了解如何向正确的人提出正确的问题,以便您可以获得提取所需信息所需的宝贵信息。此业务端使用了一些可视化工具,例如 Tableau,可帮助您以适当的非技术格式(例如业务人员可以理解的图形或饼图)显示有用的结果。