📜  Hadoop 教程

📅  最后修改于: 2021-10-27 06:39:47             🧑  作者: Mango

大数据是一组呈指数级增长的数据,它来自各种资源,数量庞大,复杂性高。该数据可以是结构化数据、非结构化数据或半结构化数据。因此,为了有效地处理或管理它,Hadoop 应运而生。

Hadoop-教程

Hadoop 是一个用Java编程语言编写的框架,适用于商用硬件的集合。在 Hadoop 之前,我们使用单一系统来存储和处理数据。此外,我们依赖于仅存储结构化数据的 RDBMS。解决如此庞大复杂数据的问题,Hadoop提供了最佳解决方案。让我们开始吧。

话题:

  • 基本
  • 安装和环境设置
  • Hadoop 的组件
  • 集群、机架和调度器
  • 高密度文件系统
  • 地图简化
  • MapReduce 程序
  • Hadoop 流
  • Hadoop 文件和命令
  • 杂项

基本

  • 什么是大数据?
  • 什么是非结构化数据?
  • 什么是半结构化数据?
  • 大数据的5V
  • Hadoop – 大数据解决方案
  • Hadoop 的演变
  • 不同版本的 Hadoop
  • RDBMS 与 Hadoop
  • Hadoop架构
  • Hadoop 2.x 与 Hadoop 3.x
  • Hadoop – 生态系统

安装和环境设置

  • 如何在 Linux 中安装 Hadoop?
  • 在 Windows 10 中安装和设置 Hadoop
  • 在 Windows 上安装单节点集群 Hadoop
  • 使用 Apache Hadoop 配置 Eclipse

Hadoop 的组件

  • Hadoop分布式文件系统(HDFS)
  • 地图简化

集群、机架和调度器

  • Hadoop集群
  • Hadoop – 集群、属性及其类型
  • Hadoop – 机架和机架意识
  • Hadoop – 调度器和调度器的类型
  • Hadoop – 不同的操作模式

高密度文件系统

  • Hadoop 中的各种文件系统
  • 为什么 HDFS 中的块如此之大?
  • 守护进程及其特性
  • 文件块和复制因子
  • 数据读取操作

地图简化

  • Hadoop 中的 Map Reduce
  • MapReduce 架构
  • MapReduce 中的映射器
  • Map-Reduce 中的 Reducer
  • MapReduce 作业执行
  • Hadoop MapReduce – 数据流
  • MapReduce 中的作业初始化
  • Job 在 MapReduce 上是如何运行的?
  • MapReduce 如何完成任务?

MapReduce 程序

  • 用于分析冷热天的天气数据分析
  • 寻找泰坦尼克号灾难中男性和女性死亡的平均年龄
  • 如何在 MapReduce Hadoop 中执行字符计数程序?

Hadoop 流

  • 什么是 Hadoop 流?
  • 使用Python 的Hadoop Streaming – 字数问题

Hadoop 文件和命令

  • Hadoop – 文件权限和 ACL(访问控制列表)
  • Hadoop – copyFromLocal 命令
  • Hadoop – getmerge 命令

杂项

  • Hadoop 3.0 版 – 有什么新变化?
  • 学习 Hadoop 的 7 大理由
  • 用于大数据的 10 大 Hadoop 分析工具
  • 学习 Hadoop 的 5 大推荐书籍
  • Hadoop 的特点使其流行
  • Hadoop vs Spark vs Flink