📅  最后修改于: 2020-12-03 01:35:53             🧑  作者: Mango
大小非常大的数据称为大数据。通常,我们处理MB(WordDoc,Excel)或最大GB(Movies,Codes)大小的数据,但Peta字节(即10 ^ 15字节大小)的数据称为大数据。据说今天的数据几乎有90%是在过去3年中生成的。
这些数据来自许多来源,例如
一家电子商务网站XYZ(拥有1亿用户)希望为其前一年消费最多的前10位客户提供100美元的购物券,此外,他们还希望了解这些客户的购买趋势,以便公司可以建议与他们相关的更多商品。
需要存储,处理和分析的大量非结构化数据。
存储: Hadoop拥有大量数据,因此使用HDFS(Hadoop分布式文件系统),该HDFS使用商品硬件形成集群并以分布式方式存储数据。它适用于一次写入,多次读取的原理。
处理:将Map Reduce范式应用于通过网络分发的数据,以查找所需的输出。
分析:猪,蜂巢可用于分析数据。
成本: Hadoop是开源的,因此成本不再是问题。