Hive:
Hive是一个构建在 Hadoop 之上的数据仓库包。它主要用于数据分析。它通常针对已经熟悉结构化查询语言 (SQL) 的用户。它与 SQL 非常相似,称为Hive查询语言 (HQL)。 Hive管理和查询结构化数据。此外,hive 抽象了 Hadoop 的复杂性。 Hive由 Facebook 于 2007 年开发,用于处理海量数据。它不支持:
- 不是一个完整的数据库。
- 不是实时处理系统。
- 不符合 SQL-92。
- 不提供行级插入、更新或删除。
- 不支持事务和有限的子查询支持。
- 进化阶段的查询优化。
数据库:
HBase 是一个面向列的数据库管理系统,运行在 Hadoop 分布式文件系统 (HDFS) 之上。它非常适合稀疏数据集,这在许多大数据用例中很常见。它是由 Apache 软件基金会开发的开源分布式数据库。最初,它被命名为 Google Big Table,之后它被重新命名为 HBase,并且主要是用Java编写的。它可以存储从 TB 到 PB 的海量数据。它专为低延迟操作而构建,广泛用于读取和写入操作。它以表格的形式存储大量数据。
Hive和 HBase 的区别:
Hive | HBase |
---|---|
Hive is a query engine | Data storage particularly for unstructured data |
Mainly used for batch processing | Extensively used for transactional processing |
Not a real time processing | Real-time processing |
Only for analytical queries | Real-time querying |
Runs on the top of Hadoop | Runs on the top of HDFS (Hadoop distributed file system) |
Apache Hive is not a database | It support NoSQL database |
It has schema model | It is free from schema model |
Made for high latency operations | Made for low level latency operations |