📜  学习 Hadoop 的 5 大推荐书籍

📅  最后修改于: 2021-10-27 06:38:13             🧑  作者: Mango

Hadoop 是一种写入Java的大数据工具,用于使用更便宜的系统/服务器分析和处理非常大的数据。它还以其高效可靠的存储技术而闻名。 Hadoop 适用于 MapReduce 编程算法和主从架构。 Facebook、雅虎、Netflix、eBay 等顶级公司正在其组织中使用 Hadoop 来寻找大数据问题的解决方案。 Apache Spark、Amazon S3、Databricks 等高端处理框架建立在 Hadoop 之上。

前 5 名推荐书籍来学习-Hadoop

1. Hadoop:权威指南

  • 作者:汤姆·怀特
  • 出版商: O’Reilly Media

对于想要从非常基础的基础上学习 apache Hadoop 的初学者来说,这是最好的推荐书籍之一。本书包含软件工程师需要理解的从基础到高级的所有概念。 Hadoop 的完整工作流程及其内部组件可在Hadoop: The Definitive Guide 中找到。电子书也是免费提供的。这本书非常适合想要研究任何长度的数据集的程序员。对于寻求安装和运行 Hadoop 集群的董事来说,这也是一个有用且正确的选择。你可以用 map-reduce 编写程序,因为这本书会教你从简单到高级的 MapReduce。它包括用于记录传输的水槽/sqoop 的基础知识。它指导新手构建可靠且易于维护的 Hadoop 配置,并有助于处理大小和品牌无关的数据集。还有许多作业可以帮助您以更简单的方式学习 Hadoop 的实时功能。即使在最新版本中,您也可以轻松找到在 Hadoop 中所做的流行调整,而不会出现问题。

2. Hadoop 24 小时

  • 添加一名作者
  • 作者: Sams 自学

本书为您提供了构建有目的的 Hadoop 平台、接口、所有 Hadoop 环境添加剂的理想回顾。已经具备Hadoop基础知识的读者可以参考本书快速复习Hadoop大数据技术。如果您正在寻找实时案例研究和实际示例,这本书是最可取的。这本书解释了从机构环境到本地服务器设置的整个练习。 HDFS 和 Hadoop 生态系统的组件就像猪一样,蜂拥而至。用这本书可以在很短的时间内掌握 map-reduce 编程概念。将数据导入到 Hadoop 中进行处理,所有这些步骤都与 YARN 功能及其重要性一起得到了明智的解释。它指示您如何实施和管理 YARN。还讨论了Apache ambari等 Hadoop 环境组件。它还通过学习安全性、扩展性和故障排除功能来帮助用户学习 Hadoop 消费者环境(色调)。

3. Hadoop 实践

  • 作者:亚历克斯·福尔摩斯
  • 发布者:曼宁

移动中的 Hadoop 是学习 Hadoop 的一站式解决方案。学习 apache Hadoop 的所有必要信息和概念都嵌入在本书的旧版本和最新版本中。它本质上是从默认的 Hadoop 安装过程开始的。然后以更简单的方式大致介绍 Hadoop 的最大重要组件 MapReduce。本书涉及 Hadoop 和 MapReduce 的实时程序,这些程序由记录分析中使用的主要大型统计框架组成。还专门讲解了如何使用Pig查询数据和写日志文件加载器。这本书包含几个实时用例,使您能够为任何问题构建解决方案。源代码也以非常优化的方式提供,以学习解决问题的有效方法。不推荐初学者阅读本书,需要对Hadoop和map-reduce有一定的了解才能更好的理解本书。也可以使用一本类似的书 Hadoop in Action。

4. Hadoop 操作

  • 作者:埃里克·萨默斯
  • 出版商: O’Reilly Media

Hadoop 操作主要侧重于使用由数百个节点组成的大型集群管理和解决大型数据集上的大数据问题。如今,Hadoop 已成为所有需要管理特定于操作的数据的巨大信息问题的最佳解决方案。随着市场对 Hadoop 的需求增加,这种特定于操作的数据呈指数增长。为企业处理这种大型的运营特定数据需要高端配置。这本书提供了解决海量数据问题的资源。本书涵盖了所有瓶颈问题,可帮助您提高 Hadoop 学习技能。它还提供了 HDFS 和 MapReduce 及其后果的顶级概念。这本书推荐给管理员和专业人士。

5. 专业版 Hadoop

  • 添加一名作者
  • 出版商: Apress Publications

始终建议有经验的学习者使用Pro Hadoop 。有使用 Hadoop 经验的人可以参考这本书来加强他们的核心概念和知识,并可以更深入地了解 Hadoop 的更多后果。本书涵盖了从简单到专业知识的关于 Hadoop 集群的每一条信息,从部署 Hadoop 集群到阅读和获取宝贵的记录,以便即兴进行企业和医学研究。使用 Map-Reduce 解决实际时间的海量信息问题,将它们划分为分布式节点上的小问题,以在最佳时间解决。