📅  最后修改于: 2021-01-07 10:49:39             🧑  作者: Mango
Apache Pig是用于执行Hadoop的MapReduce程序的高级数据流平台。 Pig的语言是Pig Latin。
Pig脚本在内部转换为Map Reduce作业,并在HDFS中存储的数据上执行。除此之外,Pig还可以在Apache Tez或Apache Spark中执行其工作。
Pig可以处理任何类型的数据,即结构化,半结构化或非结构化数据,并将相应结果存储到Hadoop数据文件系统中。使用PIG可以完成的每个任务,也可以使用MapReduce中使用的java来实现。
让我们看看Pig技术的各种用途。
对于非程序员来说,编写复杂的Java程序以进行map reduce相当困难。 Pig使此过程变得容易。在Pig中,查询在内部转换为MapReduce。
任务的编码方式使系统可以自动优化其执行,从而使用户可以专注于语义而不是效率。
编写了用户定义的函数,其中用户可以编写其逻辑以对数据集执行。
它可以轻松处理结构化和非结构化数据。
它包含各种类型的运算符,例如sort,filter和join。
Apache MapReduce | Apache PIG |
---|---|
It is a low-level data processing tool. | It is a high-level data flow tool. |
Here, it is required to develop complex programs using Java or Python. | It is not required to develop complex programs. |
It is difficult to perform data operations in MapReduce. | It provides built-in operators to perform data operations like union, sorting and ordering. |
It doesn’t allow nested data types. | It provides nested data types like tuple, bag, and map. |