📜  Hadoop – 使其流行的 Hadoop 特性

📅  最后修改于: 2021-10-27 06:47:25             🧑  作者: Mango

今天,大量公司正在采用 Hadoop 大数据工具来解决他们的大数据查询和他们的客户细分市场。市场上还有很多其他工具可用,例如 LexisNexis Risk Solution 开发的 HPCC、Storm、Qubole、Cassandra、Statwing、CouchDB、Pentaho、Openrefine、Flink 等。 那么为什么Hadoop如此受欢迎呢?在这里,我们将讨论一些使 Hadoop 如此受欢迎和行业最爱的重要的工业就绪特性。

Hadoop 是一个用Java编写的框架,其中一些代码是用 C 和 Shell 脚本编写的,它处理各种简单商品硬件的集合,使用非常基本的编程模型来处理大型数据集。它由 Doug Cutting 和 Mike Cafarella 开发,现在遵循 Apache License 2.0。现在,Hadoop 将被视为数据科学家和大数据技术的必学技能。公司正在对其进行大量投资,未来它将成为一种需求技能。 Hadoop 3.x 是 Hadoop 的最新版本。 Hadoop 主要由 3 个组件组成。

  1. HDFS(Hadoop 分布式文件系统) :HDFS 作为 Hadoop 上的存储层。数据始终以数据块的形式存储在 HDFS 上,其中每个数据块的默认大小为 128 MB,这是可配置的。 Hadoop 使用 MapReduce 算法,这是一种主从架构。 HDFS 有 NameNode 和 DataNode,它们以类似的模式工作。
  2. MapReduce :MapReduce 用作 Hadoop 上的处理层。 Map-Reduce 是一种编程模型,主要分为 Map Phase 和 Reduce Phase 两个阶段。它旨在并行处理分布在各种机器(节点)上的数据。
  3. YARN(又一个资源谈判器) :YARN 是 Hadoop 中的作业调度和资源管理层。存储在 HDFS 上的数据借助图处理、交互处理、批处理等数据处理引擎进行处理和运行。在这个 YARN 框架的帮助下,Hadoop 的整体性能得到了提升。

Hadoop 的特点使其流行

让我们讨论使 Hadoop 使用起来更可靠、成为业界最爱和最强大的大数据工具的关键特性。

1. 开源:

Hadoop 是开源的,这意味着它可以免费使用。由于它是一个开源项目,因此任何人都可以在线获取源代码以了解它或根据他们的行业要求进行一些修改。

2.高度可扩展的集群:

Hadoop 是一种高度可扩展的模型。大量数据被分成集群中的多台廉价机器并行处理。这些机器或节点的数量可以根据企业的要求增加或减少。在传统的 RDBMS(关系数据库管理系统)中,系统无法扩展以处理大量数据。

3. 容错可用:

Hadoop 使用随时可能崩溃的商品硬件(廉价系统)。在 Hadoop 中,数据被复制到 Hadoop 集群中的各个 DataNode 上,如果您的任何系统以某种方式崩溃,这可以确保数据的可用性。如果这台机器遇到技术问题,您可以从一台机器读取所有数据,也可以从 Hadoop 集群中的其他节点读取数据,因为默认情况下会复制或复制数据。默认情况下,Hadoop 为每个文件块制作 3 个副本并将其存储到不同的节点中。此复制因子是可配置的,可以通过更改hdfs-site.xml文件中的复制属性来更改。

4. 提供高可用性:

容错在 Hadoop 集群中提供高可用性。高可用性是指 Hadoop 集群上数据的可用性。由于容错,如果任何 DataNode 出现故障,可以从复制数据的任何其他节点检索相同的数据。高可用的 Hadoop 集群也有 2 个或两个以上的 Name Node,即主动 NameNode 和被动 NameNode,也称为备用 NameNode。如果 Active NameNode 出现故障,则 Passive 节点将承担 Active Node 的责任,并提供与 Active NameNode 相同的数据,用户可以轻松使用这些数据。

5. 性价比高:

Hadoop 是开源的,并且使用具有成本效益的商品硬件,它提供了一个具有成本效益的模型,不像传统的关系数据库需要昂贵的硬件和高端处理器来处理大数据。传统关系型数据库的问题在于存储海量数据不划算,因此公司开始移除原始数据。这可能不会导致他们业务的正确场景。意味着 Hadoop 为我们提供了两个主要的成本优势,一个是它的开源意味着免费使用,另一个是它使用的商品硬件也很便宜。

6. Hadoop 提供灵活性:

Hadoop 的设计方式使其可以非常有效地处理任何类型的数据集,如结构化(MySql 数据)、半结构化(XML、JSON)、非结构化(图像和视频)。这意味着它可以轻松地独立于其结构处理任何类型的数据,这使其非常灵活。它对企业非常有用,因为他们可以轻松处理大型数据集,因此企业可以使用 Hadoop 分析来自社交媒体、电子邮件等来源的数据的宝贵见解。凭借这种灵活性,Hadoop 可以与日志处理、数据仓储、欺诈检测等

7. 易于使用:

Hadoop 易于使用,因为开发人员无需担心任何处理工作,因为它由 Hadoop 本身管理。 Hadoop 生态系统也非常庞大,提供了很多工具,如Hive、Pig、Spark、HBase、Mahout 等。

8. Hadoop 使用数据局部性:

数据局部性的概念用于使 Hadoop 处理速度更快。在数据局部性概念中,计算逻辑移动到数据附近,而不是将数据移动到计算逻辑。在 HDFS 上移动数据的成本是最高的,在数据局部性概念的帮助下,系统中的带宽利用率被最小化。

9. 提供更快的数据处理:

Hadoop 使用分布式文件系统来管理其存储,即 HDFS(Hadoop 分布式文件系统)。在 DFS(分布式文件系统)中,大文件被分成小文件块,然后分布在 Hadoop 集群中可用的节点之间,因为并行处理大量文件块,这使 Hadoop 更快,因此它提供了与传统的数据库管理系统相比具有较高的性能。