📜  什么是Hive

📅  最后修改于: 2020-12-03 03:39:08             🧑  作者: Mango

什么是HIVE

Hive是一个数据仓库系统,用于分析结构化数据。它建立在Hadoop的顶部。它是由Facebook开发的。

Hive提供了读取,写入和管理驻留在分布式存储中的大型数据集的功能。它运行类似于SQL的查询,称为HQL(Hive查询语言),在内部将其转换为MapReduce作业。

使用Hive,我们可以跳过编写复杂MapReduce程序的传统方法的要求。 Hive支持数据定义语言(DDL),数据操作语言(DML)和用户定义的函数(UDF)。

蜂巢的特征

这些是Hive的以下功能:

  • Hive快速且可扩展。
  • 它提供了类似SQL的查询(即HQL),这些查询已隐式转换为MapReduce或Spark作业。
  • 它能够分析存储在HDFS中的大型数据集。
  • 它允许使用不同的存储类型,例如纯文本,RCFile和HBase。
  • 它使用索引来加速查询。
  • 它可以对Hadoop生态系统中存储的压缩数据进行操作。
  • 它支持用户定义的功能(UDF),用户可以在其中提供其功能。

蜂巢的局限性

  • Hive无法处理实时数据。
  • 它不是为在线交易处理而设计的。
  • 配置单元查询包含高延迟。

蜂巢和猪之间的区别

Hive Pig
Hive is commonly used by Data Analysts. Pig is commonly used by programmers.
It follows SQL-like queries. It follows the data-flow language.
It can handle structured data. It can handle semi-structured data.
It works on server-side of HDFS cluster. It works on client-side of HDFS cluster.
Hive is slower than Pig. Pig is comparatively faster than Hive.