大数据是一组呈指数级增长的数据,它来自各种资源,数量庞大,复杂性高。该数据可以是结构化数据、非结构化数据或半结构化数据。因此,为了有效地处理或管理它,Hadoop 应运而生。
Hadoop 是一个用Java编程语言编写的框架,适用于商用硬件的集合。在 Hadoop 之前,我们使用单一系统来存储和处理数据。此外,我们依赖于仅存储结构化数据的 RDBMS。解决如此庞大复杂数据的问题,Hadoop提供了最佳解决方案。让我们开始吧。
话题:
- 基本
- 安装和环境设置
- Hadoop 的组件
- 集群、机架和调度器
- 高密度文件系统
- 地图简化
- MapReduce 程序
- Hadoop 流
- Hadoop 文件和命令
- 杂项
基本
- 什么是大数据?
- 什么是非结构化数据?
- 什么是半结构化数据?
- 大数据的5V
- Hadoop – 大数据解决方案
- Hadoop 的演变
- 不同版本的 Hadoop
- RDBMS 与 Hadoop
- Hadoop架构
- Hadoop 2.x 与 Hadoop 3.x
- Hadoop – 生态系统
安装和环境设置
- 如何在 Linux 中安装 Hadoop?
- 在 Windows 10 中安装和设置 Hadoop
- 在 Windows 上安装单节点集群 Hadoop
- 使用 Apache Hadoop 配置 Eclipse
Hadoop 的组件
- Hadoop分布式文件系统(HDFS)
- 地图简化
- 纱
集群、机架和调度器
- Hadoop集群
- Hadoop – 集群、属性及其类型
- Hadoop – 机架和机架意识
- Hadoop – 调度器和调度器的类型
- Hadoop – 不同的操作模式
高密度文件系统
- Hadoop 中的各种文件系统
- 为什么 HDFS 中的块如此之大?
- 守护进程及其特性
- 文件块和复制因子
- 数据读取操作
地图简化
- Hadoop 中的 Map Reduce
- MapReduce 架构
- MapReduce 中的映射器
- Map-Reduce 中的 Reducer
- MapReduce 作业执行
- Hadoop MapReduce – 数据流
- MapReduce 中的作业初始化
- Job 在 MapReduce 上是如何运行的?
- MapReduce 如何完成任务?
MapReduce 程序
- 用于分析冷热天的天气数据分析
- 寻找泰坦尼克号灾难中男性和女性死亡的平均年龄
- 如何在 MapReduce Hadoop 中执行字符计数程序?
Hadoop 流
- 什么是 Hadoop 流?
- 使用Python 的Hadoop Streaming – 字数问题
Hadoop 文件和命令
- Hadoop – 文件权限和 ACL(访问控制列表)
- Hadoop – copyFromLocal 命令
- Hadoop – getmerge 命令
杂项
- Hadoop 3.0 版 – 有什么新变化?
- 学习 Hadoop 的 7 大理由
- 用于大数据的 10 大 Hadoop 分析工具
- 学习 Hadoop 的 5 大推荐书籍
- Hadoop 的特点使其流行
- Hadoop vs Spark vs Flink