📝 Apache Pig教程
36篇技术文档📅  最后修改于: 2020-12-02 05:28:31        🧑  作者: Mango
Apache Pig是MapReduce的抽象。它是一个工具/平台,用于分析将它们表示为数据流的较大数据集。 Pig通常与Hadoop一起使用;我们可以使用Pig来在Hadoop中执行所有数据操作操作。本教程适用于所有希望在不使用Java键入复杂代码的情况下执行MapReduce操作的Hadoop专业人员。先决条件要充分利用本教程,您应该对Hadoop和HDFS命令的基础知识有很好的了解。如果您擅...
📅  最后修改于: 2020-12-02 05:29:03        🧑  作者: Mango
什么是Apache Pig?Apache Pig是MapReduce的抽象。它是一个工具/平台,用于分析将它们表示为数据流的较大数据集。 Pig通常与Hadoop一起使用;我们可以使用Apache Pig在Hadoop中执行所有数据操作操作。为了编写数据分析程序,Pig提供了一种称为Pig Latin的高级语言。该语言提供了各种运算符,程序员可以使用它们来开发自己的函数来读取,写入和处理数据。要使...
📅  最后修改于: 2020-12-02 05:29:29        🧑  作者: Mango
使用Pig在Hadoop中分析数据的语言称为Pig Latin。它是一种高级数据处理语言,它提供了一组丰富的数据类型和运算符,可以对数据执行各种操作。为了使用Pig执行特定任务,程序员需要使用Pig Latin语言编写Pig脚本,并使用任何执行机制(Grunt Shell,UDF,嵌入式)执行它们。执行后,这些脚本将经历Pig框架应用的一系列转换,以生成所需的输出。在内部,Apache Pig将这...
📅  最后修改于: 2020-12-02 05:29:59        🧑  作者: Mango
本章说明如何在系统中下载,安装和设置Apache Pig。先决条件在选择Apache Pig之前,必须在系统上安装Hadoop和Java。因此,在安装Apache Pig之前,请按照以下链接中给出的步骤安装Hadoop和Java-http://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm下载Apache Pig首先,从以下网站...
📅  最后修改于: 2020-12-02 05:30:22        🧑  作者: Mango
在上一章中,我们解释了如何安装Apache Pig。在本章中,我们将讨论如何执行Apache Pig。Apache Pig执行模式您可以在两种模式下运行Apache Pig,即本地模式和HDFS模式。本地模式在这种模式下,所有文件都从本地主机和本地文件系统安装并运行。无需Hadoop或HDFS。此模式通常用于测试目的。MapReduce模式MapReduce模式是我们使用Apache Pig加载或...
📅  最后修改于: 2020-12-02 05:31:08        🧑  作者: Mango
调用Grunt Shell之后,您可以在Shell中运行Pig脚本。除此之外,Grunt shell还提供了某些有用的shell和实用程序命令。本章介绍了Grunt shell提供的shell和实用程序命令。注–在本章的某些部分中,使用了诸如Load和Store之类的命令。请参阅相应的章节以获取有关它们的详细信息。Shell命令Apache Pig的Grunt外壳程序主要用于编写Pig拉丁脚本。在...
📅  最后修改于: 2020-12-02 05:31:49        🧑  作者: Mango
Pig Latin是使用Apache Pig在Hadoop中分析数据的语言。在本章中,我们将讨论Pig Latin的基础知识,例如Pig Latin语句,数据类型,通用和关系运算符以及Pig Latin UDF。猪拉丁语–数据模型如前几章所述,Pig的数据模型是完全嵌套的。关系是Pig Latin数据模型的最外层结构。这是一个袋子–包是元组的集合。元组是一组有序的字段。字段是一条数据。猪拉丁语– ...
📅  最后修改于: 2020-12-02 05:32:30        🧑  作者: Mango
通常,Apache Pig在Hadoop之上工作。它是一种分析工具,用于分析存在在Hadoop˚FILE变体系大型数据集。要使用Apache Pig分析数据,我们必须首先将数据加载到Apache Pig中。本章说明如何从HDFS将数据加载到Apache Pig。准备HDFS在MapReduce模式下,Pig从HDFS读取(加载)数据并将结果存储回HDFS。因此,让我们启动HDFS并在HDFS中创建...
📅  最后修改于: 2020-12-02 05:32:51        🧑  作者: Mango
在上一章中,我们学习了如何将数据加载到Apache Pig中。您可以使用store运算符将加载的数据存储在文件系统中。本章介绍如何使用Store运算符在Apache Pig中存储数据。句法下面给出了Store语句的语法。例假设我们在HDFS中有一个具有以下内容的文件Student_data.txt。如下所示,我们已使用LOAD运算符将其读入关系学生。现在,让我们将关系存储在HDFS目录“ / pi...
📅  最后修改于: 2020-12-02 05:33:12        🧑  作者: Mango
load语句将简单地将数据加载到Apache Pig中的指定关系中。要验证Load语句的执行,您必须使用Diagnostic Operators。 Pig Latin提供四种不同类型的诊断运算符-转储运算符描述运算符解释运算符插图运算符在本章中,我们将讨论Pig Latin的Dump运算符。转储运营商Dump运算符用于运行Pig Latin语句并在屏幕上显示结果。它通常用于调试目的。句法下面给出的...
📅  最后修改于: 2020-12-02 05:33:28        🧑  作者: Mango
describe运算符用于查看关系的架构。句法describe运算符的语法如下-例假设我们在HDFS中有一个具有以下内容的文件Student_data.txt。如下所示,我们已使用LOAD运算符将其读入关系学生。现在,让我们描述一个名为“student”的关系并验证模式,如下所示。输出一旦执行了上面的Pig Latin语句,它将产生以下输出。...
📅  最后修改于: 2020-12-02 05:33:52        🧑  作者: Mango
说明运算符用于显示关系的逻辑,物理和MapReduce执行计划。句法下面给出了explain运算符的语法。例假设我们在HDFS中有一个具有以下内容的文件Student_data.txt。如下所示,我们已使用LOAD运算符将其读入关系学生。现在,让我们使用解释运算符解释名为学生的关系,如下所示。输出它将产生以下输出。...
📅  最后修改于: 2020-12-02 05:34:09        🧑  作者: Mango
说明运算符使您可以逐步执行一系列语句。句法下面给出了Illustra运算符的语法。例假设我们在HDFS中有一个具有以下内容的文件Student_data.txt。如下所示,我们已使用LOAD运算符将其读入关系学生。现在,让我们说明一下名为student的关系,如下所示。输出执行上述语句后,您将获得以下输出。...
📅  最后修改于: 2020-12-02 05:34:35        🧑  作者: Mango
GROUP运算符用于将数据分组为一个或多个关系。它收集具有相同密钥的数据。句法下面给出的是group运算符的语法。例假设我们在HDFS目录/ pig_data /中有一个名为student_details.txt的文件,如下所示。student_details.txt并且我们已将该文件以关系名称Student_details加载到Apache Pig中,如下所示。现在,让我们按年龄对关系中的记录/...
📅  最后修改于: 2020-12-02 05:34:58        🧑  作者: Mango
COGROUP运算符的工作方式与GROUP运算符大致相同。这两个运算符之间的唯一区别是,组运算符通常与一个关系一起使用,而cogroup运算符用于涉及两个或多个关系的语句中。使用Cogroup对两个关系进行分组假设我们在HDFS目录/ pig_data /中有两个文件,即student_details.txt和employee_details.txt,如下所示。student_details.tx...