引用 VMware 首席执行官 Pat Gelsinger 的话“数据是一门新科学,大数据拥有答案”。按照这一说法,数据是当今世界的关键。过去,我们不得不依赖经验丰富的专业人士来做出与业务、营销、购物等有关的关键决策。这种经验尤其基于他们所面临的许多问题以及他们是否能够成功解决这些问题。因此,他们一直在无意识地训练自己的思想来决定某些决定的可行性。现在时代已经变了,我们现在正在寻求基于数据的决策方法来提供更准确的决策,以最大限度地减少人为错误并最大限度地提高这些行业的效率。
为了使用这个概念,我们需要知道我们需要处理多少数据。据估计,单次越野飞行会产生近 30 亿 TB 的数据。惊讶!!!。这只是航空业产生的数据量。我们有许多行业在从事类似的工作,并产生了大量的数据。
大数据是一个不断发展的术语,它描述了任何大量有可能被挖掘以获取信息的结构化、半结构化和非结构化数据。因此,为了处理如此庞大且令人困惑的生成数据,我们使用特定技术来挖掘有用信息。此类技术需要高度稳健、可访问、可扩展且简单。一种这样的框架被命名为HADOOP。该框架基于名为HDFS (Hadoop 分布式文件系统)的文件系统,它利用分布式文件系统架构和并行编程的本质来处理存储在商品服务器上的海量数据。这些技术有助于完美地挖掘关键信息。
HDFS将文件存储在名为块的片段中。这些块位于服务器上的随机位置,以最大限度地减少这些文件的查找时间。其次,这些块的重复副本也被存储起来,作为备份,以防止信息丢失,从而使其健壮。为了定位这些块,这些块的元数据存储在主 NameNode 中,而块形式的实际数据存储在分布在服务器上的各种数据节点中。这个主 NameNode 充当数据节点的主节点,因此它也被称为主从架构。
“折磨数据,它会承认任何事情”。这句话完美地吸收了前面段落中提到的所有要点。难怪它被称为 IT 专业人士的热门蛋糕,并且在接下来的几十年里将保持不变。