什么是大数据 - 芒果文档

📌 相关文章

📜 什么是大数据

📅 最后修改于: 2020-12-03 01:35:53 🧑 作者: Mango

什么是大数据

大小非常大的数据称为大数据。通常，我们处理MB(WordDoc，Excel)或最大GB(Movies，Codes)大小的数据，但Peta字节(即10 ^ 15字节大小)的数据称为大数据。据说今天的数据几乎有90％是在过去3年中生成的。

大数据来源

这些数据来自许多来源，例如

社交网站： Facebook，Google，LinkedIn，由于这些网站在全球拥有数十亿用户，因此它们每天都会产生大量数据。
电子商务站点：诸如Amazon，Flipkart，阿里巴巴之类的站点会生成大量日志，从中可以跟踪用户的购买趋势。
气象站：所有气象站和卫星都提供非常庞大的数据，这些数据已存储并处理以预测天气。
电信公司： Airtel，Vodafone等电信巨头研究了用户趋势，并据此发布了计划，并为此存储了数百万用户的数据。
股票市场：全球的证券交易所通过其日常交易产生大量数据。

3V大数据

速度：数据以非常快的速度增长。据估计，数据量将每两年增加一倍。
种类：现在，天数据不再存储在行和列中。数据是结构化的还是非结构化的。日志文件，CCTV素材是非结构化数据。可以保存在表中的数据是结构化的数据，例如银行的交易数据。
数量：我们处理的数据量非常大，超过了Peta字节。

用例

一家电子商务网站XYZ(拥有1亿用户)希望为其前一年消费最多的前10位客户提供100美元的购物券，此外，他们还希望了解这些客户的购买趋势，以便公司可以建议与他们相关的更多商品。

问题

需要存储，处理和分析的大量非结构化数据。

解

存储： Hadoop拥有大量数据，因此使用HDFS(Hadoop分布式文件系统)，该HDFS使用商品硬件形成集群并以分布式方式存储数据。它适用于一次写入，多次读取的原理。

处理：将Map Reduce范式应用于通过网络分发的数据，以查找所需的输出。

分析：猪，蜂巢可用于分析数据。

成本： Hadoop是开源的，因此成本不再是问题。