Talend-Hive - 芒果文档

📌 相关文章

📜 Talend-Hive

📅 最后修改于: 2020-11-29 08:52:58 🧑 作者: Mango

在本章中，让我们了解如何在Talend上使用Hive job。

创建一个Talend Hive作业

作为示例，我们将把NYSE数据加载到配置单元表并运行基本的配置单元查询。右键单击“作业设计”，然后创建一个新作业– hivejob。提及作业的详细信息，然后单击“完成”。

蜂巢工作

向Hive Job添加组件

要将组件关联到Hive作业，请从托盘到设计器窗口拖放五个重要的组件-tHiveConnection，tHiveCreateTable，tHiveLoad，tHiveInput和tLogRow。然后，右键单击tHiveConnection并为tHiveCreateTable创建OnSubjobOk触发器。现在，右键单击tHiveCreateTable，然后将OnSubjobOk触发器创建到tHiveLoad。右键单击tHiveLoad并在tHiveInput上创建迭代触发器。最后，右键单击tHiveInput并创建tLogRow的主行。

添加组件

配置组件和转换

在tHiveConnection中，选择发行版作为cloudera及其使用的版本。请注意，连接模式将是独立的，而Hive服务将是Hive2。还要检查是否相应地设置了以下参数-

主持人：“ quickstart.cloudera”
港口：“ 10000”
数据库：“默认”
用户名：“ hive”

请注意，密码将自动填写，您无需进行编辑。默认情况下还将预设并设置其他Hadoop属性。

配置组件

在tHiveCreateTable中，选择“使用现有连接”，然后将“ tHiveConnection”放入“组件”列表中。输入要在默认数据库中创建的表名。保留其他参数，如下所示。

配置单元创建表

在tHiveLoad中，选择“使用现有连接”，然后将tHiveConnection放入组件列表。在“加载”操作中选择“加载”。在“文件路径”中，输入NYSE输入文件的HDFS路径。在“表名”中提及要在其中加载输入的表。保留其他参数，如下所示。

现有连接

在tHiveInput中，选择“使用现有连接”，然后将“ tHiveConnection”放入“组件”列表中。单击编辑架构，添加列及其类型，如下面的架构快照所示。现在给您在tHiveCreateTable中创建的表名。

将您的查询放在要在Hive表上运行的查询选项中。在这里，我们将打印测试配置单元表中前10行的所有列。

蜂巢连接 Schema_of_tHiveInput

在tLogRow中，单击“同步”列，然后选择“表”模式以显示输出。

表格模式

执行Hive工作

单击运行开始执行。如果所有连接和参数设置正确，您将看到查询的输出，如下所示。

执行Hive作业