📜  大数据的 5 V

📅  最后修改于: 2021-10-20 12:11:18             🧑  作者: Mango

近年来,大数据被定义为“ 3Vs ”,但现在有大数据的“5Vs ”,也称为大数据的特征如下:

1.体积:

  • “大数据”这个名字本身就与一个巨大的规模有关。
  • 卷是海量的数据。
  • 要确定数据的价值,数据的大小起着非常关键的作用。如果数据量非常大,那么它实际上被认为是“大数据”。这意味着特定数据是否可以真正被视为大数据,取决于数据量。
  • 因此,在处理大数据时,有必要考虑一个特征“量”。
  • 示例: 2016 年,估计全球移动流量为每月 6.2 艾字节(62 亿 GB)。此外,到 2020 年,我们将拥有近 40000 ExaBytes 的数据。

2. 速度:

  • 速度是指数据的高速积累。
  • 在大数据中,速度数据从机器、网络、社交媒体、手机等来源流入。
  • 存在大量且持续的数据流。这决定了数据的潜力,即生成和处理数据以满足需求的速度。
  • 采样数据可以帮助处理诸如“速度”之类的问题。
  • 示例:每天在 Google 上进行的搜索超过 35 亿次。此外,FaceBook 用户正以每年 22%(约)的速度增长。

3、品种:

  • 它是指数据的性质,包括结构化、半结构化和非结构化数据。
  • 它还指异构源。
  • 多样性基本上是来自企业内部和外部的新来源的数据的到来。它可以是结构化的、半结构化的和非结构化的。
    • 结构化数据:这些数据基本上是有组织的数据。一般是指已经定义了数据长度和格式的数据。
    • 半结构化数据:这种数据基本上是半组织数据。它一般是一种不符合数据形式结构的数据形式。日志文件是此类数据的示例。
    • 非结构化数据:这种数据基本上是指无组织的数据。它通常指的是不能很好地适应关系数据库的传统行和列结构的数据。文本、图片、视频等是无法以行和列的形式存储的非结构化数据的示例。

4.真实性:

  • 它是指数据的不一致和不确定性,即可用的数据有时会变得混乱,质量和准确性难以控制。
  • 大数据也是可变的,因为由多种不同的数据类型和来源产生的大量数据维度。
  • 示例:大量数据可能会造成混淆,而少量数据可能会传达一半或不完整的信息。

5. 价值:

  • 考虑到 4 V 之后,还有一个 V 代表 Value!。大量没有价值的数据对公司没有好处,除非你把它变成有用的东西。
  • 数据本身没有任何用处或重要性,但需要将其转换为有价值的东西以提取信息。因此,您可以声明该值!是所有 5V 中最重要的 V。