📜  Apache Pig GROUP运算符

📅  最后修改于: 2021-01-07 11:00:29             🧑  作者: Mango

Apache Pig组操作员

Apache Pig GROUP运算符用于将数据分组为一个或多个关系。它对包含相似组键的元组进行分组。如果组密钥具有多个字段,则将其视为元组,否则它将与组密钥具有相同的类型。结果,它提供的关系每组包含一个元组。

组操作员示例

在此示例中,我们根据姓氏将给定数据分组。

执行组操作员的步骤

  • 在本地计算机上创建一个文本文件,然后在其中写入一些文本。
$ nano piginput2.txt

  • 检查在piginput2.txt文件中编写的文本。
$ cat piginput2.txt

  • 在特定目录的HDFS上上传piginput2.txt文件。
 $ hdfs dfs -put /home/codegyani/piginput2.txt /pigexample

  • 打开Pig MapReduce运行模式。
$ pig
  • 将数据加载到袋子中。
grunt> A = LOAD '/pigexample/piginput2.txt' USING PigStorage(',') AS (fname:chararray,l_name:chararray,id:int);
  • 现在执行并验证数据。
grunt> DUMP A;

  • 让我们根据l_name对数据进行分组。
grunt> groupbylname = group A by l_name ;
  • 现在,执行并验证数据。
grunt> DUMP groupbylname;

在这里,我们得到了期望的输出。