📜  Hadoop-大数据概述

📅  最后修改于: 2020-12-01 06:37:58             🧑  作者: Mango


“全球数据的90%是在最近几年中产生的。”

由于诸如社交网站之类的新技术,设备和通信手段的出现,人类每年产生的数据量正在迅速增长。从开始到2003年,我们产生的数据量为50亿千兆字节。如果以磁盘形式堆积数据,则可能会占用整个足球场。 2011年每两天和2013年每十分钟创建一次相同的数量。这个速度仍在极大地增长。尽管产生的所有这些信息都是有意义的,并且在处理时可能会有用,但是却被忽略了。

什么是大数据?

大数据是无法使用传统计算技术处理的大型数据集的集合。它不是单一的技术或工具,而是已成为一个完整的主题,涉及各种工具,技术和框架。

大数据之下是什么?

大数据涉及不同设备和应用程序产生的数据。以下是大数据领域的一些领域。

  • 黑匣子数据-它是直升机,飞机和喷气式飞机等的组成部分。它捕获飞行机组的声音,麦克风和耳机的录音以及飞机的性能信息。

  • 社交媒体数据-诸如Facebook和Twitter之类的社交媒体拥有信息以及全球数百万人发布的观点。

  • 证券交易所数据-证券交易所数据包含有关客户在不同公司股份中做出的“购买”和“出售”决策的信息。

  • 电网数据-电网数据保存特定节点相对于基站消耗的信息。

  • 运输数据-运输数据包括车辆的型号,容量,距离和可用性。

  • 搜索引擎数据-搜索引擎从不同的数据库检索大量数据。

大数据

因此,大数据包括海量数据,高速数据和可扩展的各种数据。其中的数据将分为三种类型。

  • 结构化数据-关系数据。

  • 半结构化数据-XML数据。

  • 非结构化数据-Word,PDF,文本,媒体日志。

大数据的好处

  • 利用像Facebook这样的社交网络中保存的信息,营销机构正在了解有关其活动,促销和其他广告媒介的响应。

  • 产品公司和零售组织使用社交媒体中的信息(如消费者的喜好和产品认知度),来计划生产。

  • 利用有关患者先前病史的数据,医院可以提供更好,更快捷的服务。

大数据技术

大数据技术对于提供更准确的分析至关重要,这可能导致更具体的决策制定,从而提高运营效率,降低成本并降低业务风险。

要利用大数据的功能,您需要一个可以实时管理和处理大量结构化和非结构化数据并保护数据隐私和安全性的基础架构。

市场上有来自不同供应商(包括Amazon,IBM,Microsoft等)的各种技术来处理大数据。在研究处理大数据的技术时,我们研究了以下两类技术-

运营大数据

这包括像MongoDB这样的系统,该系统为主要捕获和存储数据的实时交互式工作负载提供操作功能。

NoSQL大数据系统旨在利用过去十年中出现的新云计算体系结构,以允许廉价,高效地运行大规模计算。这使操作性大数据工作负载更易于管理,更便宜且实现更快。

某些NoSQL系统可以通过实时数据以最少的编码提供对模式和趋势的洞察,而无需数据科学家和其他基础结构。

分析大数据

这些系统包括大规模并行处理(MPP)数据库系统和MapReduce之类的系统,它们为可能涉及大多数或全部数据的追溯和复杂分析提供了分析功能。

MapReduce提供了一种新的分析数据的方法,该方法可以补充SQL提供的功能,并且可以基于MapReduce的系统将其从单个服务器扩展到数千台高端和低端计算机。

这两类技术是互补的,并且经常一起部署。

运营与分析系统

Operational Analytical
Latency 1 ms – 100 ms 1 min – 100 min
Concurrency 1000 – 100,000 1 – 10
Access Pattern Writes and Reads Reads
Queries Selective Unselective
Data Scope Operational Retrospective
End User Customer Data Scientist
Technology NoSQL MapReduce, MPP Database

大数据挑战

与大数据相关的主要挑战如下-

  • 捕获数据
  • 策展
  • 存储
  • 正在搜寻
  • 分享
  • 转让
  • 分析
  • 介绍

为了应对上述挑战,组织通常会利用企业服务器的帮助。