在本文中,我们将详细讨论数据分析中数据流的概念。
流概念介绍:
数据流是现有的、连续的、有序的(隐式按进入时间或显式按时间戳)项目链。控制单元到达的顺序是不可行的,在本地完整捕获流也是不可行的。
这是大量的数据,项目以很高的速度到达。
数据流的类型:
- 数据流 –
数据流是一个(可能是未链接的)元组序列。每个元组由一组属性组成,类似于数据库表中的一行。
- 交易数据流——
它是实体之间的日志互连
- 信用卡 – 消费者从生产者那里购买
- 电信 – 来电者向被叫方拨打的电话
- Web – 客户端在服务器上访问信息
- 测量数据流 –
- 传感器网络——一种物理自然现象,道路交通
- IP 网络 – 路由器接口上的流量
- 地球气候——气象站的温度、湿度水平
流源示例-
- 传感器数据 –
在导航系统中,使用传感器数据。想象一个漂浮在海洋中的温度传感器,每小时将表面温度读数发送回基站。该传感器生成的数据是实数流。我们每天都有 3.5 TB 的数据到达,我们肯定需要考虑哪些内容可以继续使用,哪些内容只能存档。 - 图像数据 –
卫星每天经常发送包含许多 TB 图像的实际数据流。监控摄像头生成的图像分辨率低于卫星,但可能有很多,每个都以 1 秒的间隔产生图像流。 - 互联网和网络流量 –
互联网中心的一个摆动节点从许多输入端接收 IP 数据包流,并将它们传送到其输出端。网站接收异构类型的流。例如,谷歌每天收到一亿条搜索查询。
数据流的特点:
- 大量连续数据,可能是无限的。
- 不断变化,需要快速、实时的响应。
- 数据流很好地捕捉了我们今天的数据处理需求。
- 随机访问代价高昂且单一扫描算法
- 仅存储目前看到的数据摘要。
- 最大流数据在创建时处于相当低的层次或多维,需要多层次和多维处理。
数据流的应用:
- 欺诈认知
- 实时货物交易
- 消费企业
- 对内部 IT 系统的观察和描述
数据流的优点:
- 这些数据有助于提升销量
- 帮助识别谬误
- 有助于降低成本
- 它提供了快速应对风险的详细信息
数据流的缺点:
- 云中数据缺乏安全性
- 持有云捐助者从属
- 详细信息的外部仓库引入了断开连接的可能性