📜  塔伦德-与猪一起工作

📅  最后修改于: 2020-11-29 08:52:30             🧑  作者: Mango


在本章中,让我们学习如何在Talend中处理Pig作业。

创建Talend Pig工作

在本节中,让我们学习如何在Talend上运行Pig作业。在这里,我们将处理NYSE数据以找出IBM的平均库存量。

为此,右键单击作业设计并创建一个新作业– Pigjob。提及作业的详细信息,然后单击“完成”。

塔伦德猪工作

向Pig Job添加组件

要将组件添加到Pig作业,请从托盘到设计器窗口拖放四个Talend组件:tPigLoad,tPigFilterRow,tPigAggregate,tPigStoreResult。

然后,右键单击tPigLoad,然后将Pig Combine行创建到tPigFilterRow。接下来,右键单击tPigFilterRow,然后将Pig Combine行创建到tPigAggregate。右键单击tPigAggregate,然后将Pig组合行创建到tPigStoreResult。

添加猪工作

配置组件和转换

在tPigLoad中,将发行版称为cloudera和cloudera的版本。请注意,Namenode URI应为“ hdfs://quickstart.cloudera:8020”,资源管理器应为“ quickstart.cloudera:8020”。另外,用户名应为“ cloudera”。

在输入文件URI中,将NYSE输入文件的路径提供给Pig作业。请注意,此输入文件应存在于HDFS上。

纽约证券交易所输入

单击编辑架构,添加列及其类型,如下所示。

编辑架构

在tPigFilterRow中,选择“使用高级过滤器”选项,然后在“过滤器”选项中放入“ stock_symbol = =’IBM’”。

筛选选项

在tAggregateRow中,单击“编辑模式”,然后在输出中添加avg_stock_volume列,如下所示。

平均库存量

现在,将stock_exchange列放入“按选项分组”。在操作字段中添加avg_stock_volume列,并将计数功能和stock_exchange作为输入列。

股票交易

在tPigStoreResult中,在“结果文件夹URI”中提供要存储Pig作业结果的输出路径。选择存储函数作为PigStorage,选择字段分隔符(非强制性)作为“ \ t”。

猪储存

执行养猪工作

现在单击运行以执行您的Pig作业。 (忽略警告)

执行猪工作

作业完成后,转到您提到的用于存储清管作业结果的HDFS路径中检查输出。 IBM的平均库存量为500。

储存猪