📜  Talend-Hive

📅  最后修改于: 2020-11-29 08:52:58             🧑  作者: Mango


在本章中,让我们了解如何在Talend上使用Hive job。

创建一个Talend Hive作业

作为示例,我们将把NYSE数据加载到配置单元表并运行基本的配置单元查询。右键单击“作业设计”,然后创建一个新作业– hivejob。提及作业的详细信息,然后单击“完成”。

蜂巢工作

向Hive Job添加组件

要将组件关联到Hive作业,请从托盘到设计器窗口拖放五个重要的组件-tHiveConnection,tHiveCreateTable,tHiveLoad,tHiveInput和tLogRow。然后,右键单击tHiveConnection并为tHiveCreateTable创建OnSubjobOk触发器。现在,右键单击tHiveCreateTable,然后将OnSubjobOk触发器创建到tHiveLoad。右键单击tHiveLoad并在tHiveInput上创建迭代触发器。最后,右键单击tHiveInput并创建tLogRow的主行。

添加组件

配置组件和转换

在tHiveConnection中,选择发行版作为cloudera及其使用的版本。请注意,连接模式将是独立的,而Hive服务将是Hive2。还要检查是否相应地设置了以下参数-

  • 主持人:“ quickstart.cloudera”
  • 港口:“ 10000”
  • 数据库:“默认”
  • 用户名:“ hive”

请注意,密码将自动填写,您无需进行编辑。默认情况下还将预设并设置其他Hadoop属性。

配置组件

在tHiveCreateTable中,选择“使用现有连接”,然后将“ tHiveConnection”放入“组件”列表中。输入要在默认数据库中创建的表名。保留其他参数,如下所示。

配置单元创建表

在tHiveLoad中,选择“使用现有连接”,然后将tHiveConnection放入组件列表。在“加载”操作中选择“加载”。在“文件路径”中,输入NYSE输入文件的HDFS路径。在“表名”中提及要在其中加载输入的表。保留其他参数,如下所示。

现有连接

在tHiveInput中,选择“使用现有连接”,然后将“ tHiveConnection”放入“组件”列表中。单击编辑架构,添加列及其类型,如下面的架构快照所示。现在给您在tHiveCreateTable中创建的表名。

将您的查询放在要在Hive表上运行的查询选项中。在这里,我们将打印测试配置单元表中前10行的所有列。

蜂巢连接Schema_of_tHiveInput

在tLogRow中,单击“同步”列,然后选择“表”模式以显示输出。

表格模式

执行Hive工作

单击运行开始执行。如果所有连接和参数设置正确,您将看到查询的输出,如下所示。

执行Hive作业