📝 SQLAlchemy教程
72篇技术文档📅  最后修改于: 2021-01-07 10:55:01        🧑  作者: Mango
Pig UDF(用户定义函数)为了指定自定义处理,Pig提供了对用户定义函数(UDF)的支持。因此,Pig允许我们创建自己的功能。当前,可以使用以下编程语言来实现Pig UDF:-爪哇Python吉顿的JavaScript红宝石Groovy在所有语言中,Pig为Java函数提供了最广泛的支持。但是,仅对Python,Jython,JavaScript,Ruby和Groovy等语言提供有限的支持。猪...
📅  最后修改于: 2021-01-07 10:55:56        🧑  作者: Mango
Apache Pig LOAD运算符Apache Pig LOAD运算符用于从文件系统加载数据。句法这里,LOAD是一个关系运算符。“ info”是需要加载的文件。它包含任何类型的数据。使用是一个关键字。FUNCTION是一个加载函数。AS是关键字。SCHEMA是传递文件的模式,用括号括起来。LOAD运算符的示例在此示例中,我们从文件系统加载文本文件数据。执行LOAD Operator的步骤在本地...
📅  最后修改于: 2021-01-07 10:56:50        🧑  作者: Mango
Apache Pig CROSS运算符Apache Pig CROSS运算符有助于计算两个或更多关系的叉积。使用CROSS运算符是一项昂贵的操作,应谨慎使用。交叉运算符的示例在此示例中,我们计算两个关系的数据。执行CROSS运算符的步骤在本地计算机上创建一个文本文件,并将一些值写入其中。在本地计算机上创建另一个文本文件,并将一些值写入其中。检查两个文本文件中写入的值。将两个文本文件上载到HDFS的...
📅  最后修改于: 2021-01-07 10:57:45        🧑  作者: Mango
Apache Pig DISTINCT运算符Apache Pig DISTINCT运算符用于删除关系中的重复元组。最初,Pig对给定的数据进行排序,然后消除重复项。DISTINCT运算符的示例在此示例中,我们消除了重复的元组。执行DISTINCT运算符的步骤在本地计算机上创建一个文本文件,并提供一些值。检查写入文本文件的值。将文本文件上载到HDFS的特定目录中。打开Pig MapReduce运行模...
📅  最后修改于: 2021-01-07 10:58:40        🧑  作者: Mango
Apache Pig FILTER运算符Apache Pig FILTER运算符用于删除关系中的重复元组。最初,Pig对给定的数据进行排序,然后消除重复项。FILTER运算符的示例在此示例中,我们消除了重复的元组。执行FILTER运算符的步骤在本地计算机上创建一个文本文件,并提供一些值。检查写入文本文件的值。将文本文件上载到HDFS的特定目录中。打开Pig MapReduce运行模式。加载包含数据...
📅  最后修改于: 2021-01-07 10:59:34        🧑  作者: Mango
Apache Pig FOREACH运算符Apache Pig FOREACH运算符基于数据列生成数据转换。建议使用FILTER操作来处理数据元组。FOREACH运算符的示例在此示例中,我们遍历给定文件中存在的两列数据。执行FOREACH运算符的步骤在本地计算机上创建一个文本文件,并提供一些值。检查写入文本文件的值。将文本文件上载到HDFS的特定目录中。打开Pig MapReduce运行模式。加载...
📅  最后修改于: 2021-01-07 11:00:29        🧑  作者: Mango
Apache Pig组操作员Apache Pig GROUP运算符用于将数据分组为一个或多个关系。它对包含相似组键的元组进行分组。如果组密钥具有多个字段,则将其视为元组,否则它将与组密钥具有相同的类型。结果,它提供的关系每组包含一个元组。组操作员示例在此示例中,我们根据姓氏将给定数据分组。执行组操作员的步骤在本地计算机上创建一个文本文件,然后在其中写入一些文本。检查在piginput2.txt文件...
📅  最后修改于: 2021-01-07 11:01:24        🧑  作者: Mango
Apache Pig LIMIT运算符Apache Pig LIMIT运算符用于限制输出元组的数量。但是,如果指定输出元组的限制等于或大于存在的元组数,则将返回关系中的所有元组。LIMIT运算符的示例在此示例中,我们从关系中的所有元组中仅返回两个元组。执行LIMIT运算符的步骤在本地计算机上创建一个文本文件,然后插入元组列表。检查插入文本文件中的元组。将文本文件上载到HDFS的特定目录中。打开Pi...
📅  最后修改于: 2021-01-07 11:02:18        🧑  作者: Mango
Apache Pig ORDER BY运算符Apache Pig ORDER BY运算符根据一个或多个字段对关系进行排序。它保持元组的顺序。ORDER BY运算符的示例在此示例中,我们从关系中的所有元组中仅返回两个元组。执行ORDER BY运算符的步骤在本地计算机上创建一个文本文件,然后插入元组列表。检查插入文本文件中的元组。将文本文件上载到HDFS的特定目录中。打开Pig MapReduce运行...
📅  最后修改于: 2021-01-07 11:03:13        🧑  作者: Mango
Apache Pig SPLIT运算符Apache Pig SPLIT运算符符根据提供的表达式将关系分为两个或多个关系。在此,元组可以分配给一个或多个关系,也可以不分配给一个或多个关系。SPLIT运算符的示例在此示例中,我们将提供的关系分为两个关系。执行SPLIT Operator的步骤在本地计算机上创建一个文本文件,并提供一些值。检查写入文本文件的值。将文本文件上载到HDFS的特定目录中。打开P...
📅  最后修改于: 2021-01-07 11:04:09        🧑  作者: Mango
Apache Pig UNION运算符Apache Pig UNION运算符用于计算两个或更多关系的并集。它不维护元组的顺序。它也不会消除重复的元组。UNION运算符的示例在此示例中,我们计算两个关系的数据。执行UNION Operator的步骤在本地计算机上创建一个文本文件,并将一些值写入其中。在本地计算机上创建另一个文本文件,并将一些值写入其中。检查两个文本文件中写入的值。将两个文本文件上载到...
📅  最后修改于: 2021-01-07 11:05:04        🧑  作者: Mango
Apache Pig AVG函数Apache Pig AVG函数用于查找单列袋中给定数值的平均值。对于全局平均值,它需要前面的GROUP ALL语句,对于组平均值,它需要GROUP BY语句。但是,它忽略NULL值。AVG功能示例在此示例中,我们将计算给定数值的平均值。执行AVG功能的步骤在本地计算机上创建一个文本文件,然后插入元组列表。检查插入文本文件中的元组。将文本文件上载到HDFS的特定目录...
📅  最后修改于: 2021-01-07 11:05:57        🧑  作者: Mango
Apache Pig CONCAT函数Apache Pig CONCAT函数用于连接两个或多个表达式。表达式的生成结果必须具有相同的类型。但是,如果任何子表达式为null,则生成的表达式也为null。CONCAT功能示例在此示例中,我们串联了每个元组的前两个字段。执行CONCAT功能的步骤在本地计算机上创建一个文本文件,然后插入元组列表。检查插入文本文件中的元组。将文本文件上载到HDFS的特定目录...
📅  最后修改于: 2021-01-07 11:06:52        🧑  作者: Mango
Apache Pig COUNT函数Apache Pig COUNT函数用于计算袋子中的元素数。对于全局计数,它需要前面的GROUP ALL语句,对于组计数,它需要GROUP BY语句。它忽略空值。COUNT函数示例在此示例中,我们对袋子中的元组进行计数。执行COUNT功能的步骤在本地计算机上创建一个文本文件,然后插入元组列表。检查插入文本文件中的元组。将文本文件上载到HDFS的特定目录中。打开P...
📅  最后修改于: 2021-01-07 11:08:45        🧑  作者: Mango
Apache Pig IN函数Apache Pig IN函数用于减少对多个OR条件的需求。它有助于检查当前表达式是否与列表中存在的任何值匹配。IN功能示例在此示例中,我们通过对列表的值应用IN运算符来过滤元组。执行IN功能的步骤在本地计算机上创建一个文本文件,然后插入元组列表。检查插入文本文件中的元组。将文本文件上载到HDFS的特定目录中。打开Pig MapReduce运行模式。加载包含数据的文件...