📜  ML |机器学习中的数据简介

📅  最后修改于: 2021-04-16 03:18:20             🧑  作者: Mango

数据:可以是未解释和分析的任何未处理的事实,值,文本,声音或图片。数据是所有数据分析,机器学习,人工智能中最重要的部分。没有数据,我们就无法训练任何模型,所有现代研究和自动化都将徒劳无功。大企业正在花费大量金钱只是为了收集尽可能多的某些数据。
示例: Facebook为什么要以190亿美元的巨额价格收购WhatsApp?
答案非常简单且合乎逻辑-可以访问Facebook可能没有但WhatsApp将拥有的用户信息。用户的信息对于Facebook至关重要,因为这将有助于改善他们的服务。
信息:已经被解释和操纵的数据,现在对用户具有一些有意义的推断。
知识:推断信息,经验,学习和见识的结合。导致个人或组织的意识或概念的建立。

我们如何在机器学习中拆分数据?

  • 训练数据:我们用来训练模型的数据部分。这是模型实际看到的数据(输入和输出)并从中学习。
  • 验证数据:用于对模型进行频繁评估的数据部分,与改进的超参数(在模型开始学习之前初始设置参数)一起,适合训练数据集。当模型实际训练时,这些数据将发挥作用。
  • 测试数据:模型经过完全训练后,测试数据即可提供公正的评估。当我们输入测试数据的输入时,我们的模型将预测一些值(看不到实际输出)。经过预测,我们通过将模型与测试数据中存在的实际输出进行比较来评估模型。这就是我们进行评估的方式,并了解我们的模型从作为培训数据时设置的培训数据中获得的经验中学到了多少。

考虑一个例子:
有一家Shopping Mart所有者进行了一项调查,他为此列出了一长串向客户询问的问题和答案,这些问题和答案就是DATA 。现在,每当他想推论任何事情,而不能仅仅遍历成千上万个客户的每个问题来寻找相关的东西时,这将是耗时且无济于事的。为了减少这种开销和时间浪费并简化工作,根据自己的方便,通过软件,计算,图形等对数据进行操作,从操作数据得出的推论是Information 。因此,数据必不可少的信息。现在,知识在区分具有相同信息的两个人中发挥了作用。知识实际上不是技术内容,而是与人类的思维过程相关联。

数据属性–

  1. 数量:数据规模。随着世界人口和技术的不断增长,每一毫秒都会生成大量数据。
  2. 种类:不同形式的数据–医疗保健,图像,视频,音频剪辑。
  3. 速度:数据流传输和生成的速率。
  4. 价值:研究人员可以从数据中推断出的数据意义。
  5. 准确性:我们正在处理的数据的确定性和正确性。

有关数据的一些事实:

  • 与2005年相比,到2020年将产生300倍的数据,即40 Zettabytes(1ZB = 10 ^ 21字节)。
  • 到2011年,医疗保健行业的数据将达到1610亿千兆字节
  • 每天大约有2亿活跃用户发送4亿条推文
  • 每个月,用户完成的视频流超过40亿小时。
  • 用户每月共享300亿种不同类型的内容。
  • 据报道,大约27%的数据不准确,因此,三分之二的商业理想主义者或领导者不信任他们做出决策所依据的信息。

上述事实只是对实际存在的大量数据统计信息的一瞥。当我们谈论现实世界场景时,当前存在且每时每刻都在生成的数据量超出了我们的想象力。