📜  数据分析中的数据流

📅  最后修改于: 2021-10-21 05:04:17             🧑  作者: Mango

在本文中,我们将详细讨论数据分析中数据流的概念。

流概念介绍:

数据流是现有的、连续的、有序的(隐式按进入时间或显式按时间戳)项目链。控制单元到达的顺序是不可行的,在本地完整捕获流也是不可行的。

这是大量的数据,项目以很高的速度到达。

数据流的类型:

  • 数据流 –

数据流是一个(可能是未链接的)元组序列。每个元组由一组属性组成,类似于数据库表中的一行。

  • 交易数据流——

它是实体之间的日志互连

  1. 信用卡 – 消费者从生产者那里购买
  2. 电信 – 来电者向被叫方拨打的电话
  3. Web – 客户端在服务器上访问信息
  • 测量数据流 –
  1. 传感器网络——一种物理自然现象,道路交通
  2. IP 网络 – 路由器接口上的流量
  3. 地球气候——气象站的温度、湿度水平

流源示例-

  1. 传感器数据 –
    在导航系统中,使用传感器数据。想象一个漂浮在海洋中的温度传感器,每小时将表面温度读数发送回基站。该传感器生成的数据是实数流。我们每天都有 3.5 TB 的数据到达,我们肯定需要考虑哪些内容可以继续使用,哪些内容只能存档。
  2. 图像数据 –
    卫星每天经常发送包含许多 TB 图像的实际数据流。监控摄像头生成的图像分辨率低于卫星,但可能有很多,每个都以 1 秒的间隔产生图像流。
  3. 互联网和网络流量 –
    互联网中心的一个摆动节点从许多输入端接收 IP 数据包流,并将它们传送到其输出端。网站接收异构类型的流。例如,谷歌每天收到一亿条搜索查询。

数据流的特点:

  1. 大量连续数据,可能是无限的。
  2. 不断变化,需要快速、实时的响应。
  3. 数据流很好地捕捉了我们今天的数据处理需求。
  4. 随机访问代价高昂且单一扫描算法
  5. 仅存储目前看到的数据摘要。
  6. 最大流数据在创建时处于相当低的层次或多维,需要多层次和多维处理。

数据流的应用:

  1. 欺诈认知
  2. 实时货物交易
  3. 消费企业
  4. 对内部 IT 系统的观察和描述

数据流的优点:

  • 这些数据有助于提升销量
  • 帮助识别谬误
  • 有助于降低成本
  • 它提供了快速应对风险的详细信息

数据流的缺点:

  • 云中数据缺乏安全性
  • 持有云捐助者从属
  • 详细信息的外部仓库引入了断开连接的可能性