Hadoop: Hadoop 是来自 Apache 的开源框架,用于存储和处理分布在服务器集群中的大型数据集。 Hadoop 的四个主要组件是 Hadoop 分布式文件系统 (HDFS)、Yarn、MapReduce 和库。它不仅涉及大数据,还涉及结构化、半结构化和非结构化信息的混合。 Amazon、IBM、Microsoft、Cloudera、ScienceSoft、Pivotal、Hortonworks 是一些使用 Hadoop 技术的公司。
HBase: HBase 是Apache 的一个开源数据库,运行在 Hadoop 集群上,属于非关系型数据库管理系统。 HBase 的三个重要组件是 HMaster、Region 服务器、Zookeeper。 CapitalOne、摩根大通、苹果、MTB、AT&T、Lockheed Martin 是一些使用 HBase 的公司。
下表列出了 Hadoop 和 HBase 之间的差异:
S.No. | Hadoop | HBase |
---|---|---|
1 | Hadoop is a collection of software tools | HBase is a part of hadoop eco-system |
2 | Stores data sets in a distributed environment | Stores data in a column-oriented manner |
3 | Hadoop is a framework | HBase is a NOSQL database |
4 | Data are stored in form of chunks | Data are stored in form of key/value pair |
5 | Hadoop does not allow run time changes | HBase allows run time changes |
6 | File can be written only once, can be read many times | File can be read and write multiple times |
7 | Hadoop has low latency operations | HBase has high latency operations |
8 | HDFS can be accessed through MapReduce | HBase can be accessed through shell commads, Java API, REST |
[/源代码]