📜  数据科学概述

📅  最后修改于: 2022-05-13 01:58:07.924000             🧑  作者: Mango

数据科学概述

数据科学是对数据的研究。就像生物科学是对生物学的研究,物理科学是对物理反应的研究。数据是真实的,数据具有真实的属性,如果我们要研究它们,就需要研究它们。数据科学涉及数据和一些迹象。

这是一个过程,而不是一个事件。它是使用数据来理解太多不同的事物、了解世界的过程。假设当您有一个模型或建议的问题解释,并且您尝试使用您的数据验证该建议的解释或模型时。

它是展现隐藏(或抽象)在数据背后的洞察力和趋势的技能。这是将数据翻译成故事的时候。因此,使用讲故事来产生洞察力。有了这些见解,您可以为公司或机构做出战略选择。

我们还可以将数据科学定义为一个关于从各种资源中提取各种形式的数据的过程和系统的领域,无论数据是非结构化的还是结构化的。
定义和名称出现在 1980 年代和 1990 年代,当时一些教授、IT 专业人员、科学家正在研究统计课程,他们认为最好将其称为数据科学,然后再将其称为数据分析派生。

但世界上最大的问题困惑是什么是数据科学
我们将数据科学视为一次又一次地尝试处理数据,以找到他们正在探索的问题的答案。总而言之,我们可以说它更多地是关于数据而不是关于科学。如果您有正确或不正确的数据,并且您对处理数据有好奇心,并且根据您的需要操纵它,您正在根据您的需要探索它,这是通过分析数据,试图获得从你探索、操纵和运用的数据中得到一些答案或满足社会需求——这就是数据科学。



数据科学在今天很重要,因为我们有数百万个关于单个数据或单个数据的可用数据。我们过去不用担心缺少数据。现在我们有大量的数据。过去,我们没有定义算法,现在我们有了算法。过去,这个软件不是每个人都能负担得起,因为它太贵了,所以只有大钱的行业才能使用它,但现在它是开源的,免费提供。过去,我们甚至没有考虑存储大量数据,因为存储设施也非常昂贵,现在只需很少的成本就可以使用,我们可以以非常低的成本拥有海量的数据集.此外,互联网连接并不常见且成本过高。因此,处理数据的工具、数据的可变性、存储、分析数据的能力以及最后也是最重要的连接性,都很便宜,都可用,无处不在,就在这里。现在是成为数据科学家的最佳时机。

数据科学的应用:

以下是一些将数据科学用于其服务的应用程序:

  • 互联网搜索结果(谷歌)
  • 推荐引擎 (Spotify)
  • 智能数字助理(谷歌助理)
  • 自动驾驶汽车(Waymo)
  • 垃圾邮件过滤器 (Gmail)
  • 辱骂性内容和仇恨言论过滤器 (Facebook)
  • 机器人(波士顿动力)
  • 自动盗版检测 (YouTube)

谁是数据科学家?

他/她是日夜苦苦研究数据还是在他/她的实验室中用复杂的数学进行实验?毕竟,“谁是数据科学家”?

市场上有许多可供数据科学家使用的定义。简而言之,数据科学家是了解并实践数据科学艺术的人。超级流行的术语“数据科学家”是由 DJ Patil 和 Jeff Hammerbacher 创造的。数据科学家是那些凭借其在某些科学学科方面的强大专业知识来解决复杂数据问题的科学家。他们处理许多与数学、统计学、概率、定量和定性预测、计算机科学等相关的元素(尽管他们可能不是所有这些领域的专家)。

我们可以说数据科学家是业务分析师和数据分析师,两者是有区别的!。尽管所有这些学科的初始培训或基本要求都相似,但数据科学家需要:

  • 强大的商业头脑
  • 沟通能力强
  • 探索大数据

就像农业科学家想知道今年小麦产量与去年相比增加的百分比(以及与之相关的原因),或者金融公司是否想根据客户的信誉对其进行分类(在发放贷款之前)或者零售组织是否想要为其忠实客户奖励额外积分,都需要数据科学家来处理大量结构化和非结构化数据,以便做出关键的业务决策。

在当今瞬息万变的广阔世界中,当今数据科学家面临的主要挑战是找到解决现有业务问题的解决方案,找出与组织及其成功最相关和最关键的问题。

为什么数据科学家被称为“数据科学家”?

考虑到数据科学家从科学领域和应用程序收集大量信息,无论这些信息是统计、数学还是计算机科学,因此“数据科学家”一词已经存在。他们利用最新的技术和工具来寻找解决方案并得出对组织成长和发展很重要的结论。与来自结构化和非结构化形式的原始数据相比,数据科学家以更有用的形式呈现数据。

就像任何其他科学培训一样,数据科学家总是需要询问并找到有关数据可用的内容、方式和原因的答案。他们需要制定明确的计划,并努力在有限的时间、精力和金钱内实现结果。