📅  最后修改于: 2020-11-29 08:52:58             🧑  作者: Mango
在本章中,让我们了解如何在Talend上使用Hive job。
作为示例,我们将把NYSE数据加载到配置单元表并运行基本的配置单元查询。右键单击“作业设计”,然后创建一个新作业– hivejob。提及作业的详细信息,然后单击“完成”。
要将组件关联到Hive作业,请从托盘到设计器窗口拖放五个重要的组件-tHiveConnection,tHiveCreateTable,tHiveLoad,tHiveInput和tLogRow。然后,右键单击tHiveConnection并为tHiveCreateTable创建OnSubjobOk触发器。现在,右键单击tHiveCreateTable,然后将OnSubjobOk触发器创建到tHiveLoad。右键单击tHiveLoad并在tHiveInput上创建迭代触发器。最后,右键单击tHiveInput并创建tLogRow的主行。
在tHiveConnection中,选择发行版作为cloudera及其使用的版本。请注意,连接模式将是独立的,而Hive服务将是Hive2。还要检查是否相应地设置了以下参数-
请注意,密码将自动填写,您无需进行编辑。默认情况下还将预设并设置其他Hadoop属性。
在tHiveCreateTable中,选择“使用现有连接”,然后将“ tHiveConnection”放入“组件”列表中。输入要在默认数据库中创建的表名。保留其他参数,如下所示。
在tHiveLoad中,选择“使用现有连接”,然后将tHiveConnection放入组件列表。在“加载”操作中选择“加载”。在“文件路径”中,输入NYSE输入文件的HDFS路径。在“表名”中提及要在其中加载输入的表。保留其他参数,如下所示。
在tHiveInput中,选择“使用现有连接”,然后将“ tHiveConnection”放入“组件”列表中。单击编辑架构,添加列及其类型,如下面的架构快照所示。现在给您在tHiveCreateTable中创建的表名。
将您的查询放在要在Hive表上运行的查询选项中。在这里,我们将打印测试配置单元表中前10行的所有列。
在tLogRow中,单击“同步”列,然后选择“表”模式以显示输出。
单击运行开始执行。如果所有连接和参数设置正确,您将看到查询的输出,如下所示。