📅  最后修改于: 2020-11-29 08:50:39             🧑  作者: Mango
具有大数据的Open Studio的标语是“使用领先的免费大数据ETL开放源工具简化ETL和ELT。”在本章中,让我们研究一下Talend作为在大数据环境中处理数据的工具的用法。
Talend Open Studio –大数据是一个免费的开源工具,可在大数据环境中非常轻松地处理数据。 Talend Open Studio中有大量可用的大数据组件,通过简单地拖放几个Hadoop组件,您就可以创建和运行Hadoop作业。
此外,我们不需要编写大型的MapReduce代码。 Talend Open Studio大数据可帮助您利用其中的组件来完成此任务。它会自动为您生成MapReduce代码,您只需要拖放组件并配置一些参数即可。
它还使您可以选择连接多个大数据发行版,例如Cloudera,HortonWorks,MapR,Amazon EMR甚至Apache。
下面显示了在大数据下包含在大数据环境中运行作业的组件的类别列表:
Talend Open Studio中的大数据连接器和组件列表如下所示-
tHDFSConnection-用于连接到HDFS(Hadoop分布式文件系统)。
tHDFSInput-从给定的hdfs路径读取数据,将其放入talend模式,然后将其传递到作业中的下一个组件。
tHDFSList-检索给定hdfs路径中的所有文件和文件夹。
tHDFSPut-将文件/文件夹从本地文件系统(用户定义)复制到给定路径的hdfs。
tHDFSGet-将文件/文件夹从hdfs复制到给定路径的本地文件系统(用户定义)。
tHDFSDelete-从HDFS删除文件
tHDFSExist-检查文件是否在HDFS上。
tHDFSOutput-将数据流写入HDFS。
tCassandraConnection-打开与Cassandra服务器的连接。
tCassandraRow-在指定的数据库上运行CQL(Cassandra查询语言)查询。
tHBaseConnection-打开与HBase数据库的连接。
tHBaseInput-从HBase数据库读取数据。
tHiveConnection-打开与Hive数据库的连接。
tHiveCreateTable-在配置单元数据库中创建一个表。
tHiveInput-从配置单元数据库读取数据。
tHiveLoad-将数据写入配置单元表或指定目录。
tHiveRow-在指定的数据库上运行HiveQL查询。
tPigLoad-将输入数据加载到输出流。
tPigMap-用于在清管过程中转换和路由数据。
tPigJoin-基于连接密钥执行2个文件的连接操作。
tPigCoGroup-分组和聚合来自多个输入的数据。
tPigSort-基于一个或多个已定义的排序键对给定数据进行排序。
tPigStoreResult-将清管运算的结果存储在定义的存储空间中。
tPigFilterRow-过滤指定的列,以便根据给定条件拆分数据。
tPigDistinct-从关系中删除重复的元组。
tSqoopImport-将数据从关系数据库(如MySQL,Oracle DB)传输到HDFS。
tSqoopExport-将数据从HDFS传输到关系数据库,例如MySQL,Oracle DB