塔伦德-与猪一起工作 - 芒果文档

📌 相关文章

📜 塔伦德-与猪一起工作

📅 最后修改于: 2020-11-29 08:52:30 🧑 作者: Mango

在本章中，让我们学习如何在Talend中处理Pig作业。

创建Talend Pig工作

在本节中，让我们学习如何在Talend上运行Pig作业。在这里，我们将处理NYSE数据以找出IBM的平均库存量。

为此，右键单击作业设计并创建一个新作业– Pigjob。提及作业的详细信息，然后单击“完成”。

塔伦德猪工作

向Pig Job添加组件

要将组件添加到Pig作业，请从托盘到设计器窗口拖放四个Talend组件：tPigLoad，tPigFilterRow，tPigAggregate，tPigStoreResult。

然后，右键单击tPigLoad，然后将Pig Combine行创建到tPigFilterRow。接下来，右键单击tPigFilterRow，然后将Pig Combine行创建到tPigAggregate。右键单击tPigAggregate，然后将Pig组合行创建到tPigStoreResult。

添加猪工作

配置组件和转换

在tPigLoad中，将发行版称为cloudera和cloudera的版本。请注意，Namenode URI应为“ hdfs：//quickstart.cloudera：8020”，资源管理器应为“ quickstart.cloudera：8020”。另外，用户名应为“ cloudera”。

在输入文件URI中，将NYSE输入文件的路径提供给Pig作业。请注意，此输入文件应存在于HDFS上。

纽约证券交易所输入

单击编辑架构，添加列及其类型，如下所示。

编辑架构

在tPigFilterRow中，选择“使用高级过滤器”选项，然后在“过滤器”选项中放入“ stock_symbol = =’IBM’”。

筛选选项

在tAggregateRow中，单击“编辑模式”，然后在输出中添加avg_stock_volume列，如下所示。

平均库存量

现在，将stock_exchange列放入“按选项分组”。在操作字段中添加avg_stock_volume列，并将计数功能和stock_exchange作为输入列。

股票交易

在tPigStoreResult中，在“结果文件夹URI”中提供要存储Pig作业结果的输出路径。选择存储函数作为PigStorage，选择字段分隔符(非强制性)作为“ \ t”。

猪储存

执行养猪工作

现在单击运行以执行您的Pig作业。 (忽略警告)

执行猪工作

作业完成后，转到您提到的用于存储清管作业结果的HDFS路径中检查输出。 IBM的平均库存量为500。

储存猪