📝 Talend教程
20篇技术文档📅  最后修改于: 2020-11-29 08:45:47        🧑  作者: Mango
Talend是用于数据集成的ETL工具。它为数据准备,数据质量,数据集成,应用程序集成,数据管理和大数据提供软件解决方案。 Talend为所有这些解决方案提供单独的产品。数据集成和大数据产品被广泛使用。本教程通过示例帮助您了解Talend工具用于数据集成和大数据的所有基础知识。本教程适用于渴望成为ETL专家的初学者。对于希望将ETL工具与大数据生态系统结合使用的大数据专业人员来说,它也是理想的选择...
📅  最后修改于: 2020-11-29 08:46:08        🧑  作者: Mango
Talend是一个软件集成平台,为数据集成,数据质量,数据管理,数据准备和大数据提供解决方案。对具有Talend知识的ETL专业人员的需求很高。而且,它是唯一具有所有插件的ETL工具,可以轻松地与Big Data生态系统集成。根据Gartner的说法,Talend属于数据集成工具的Leaders魔力象限。塔伦德提供以下列出的各种商业产品-塔伦德数据质量塔伦德数据集成塔伦德数据准备塔伦云塔伦德大数据...
📅  最后修改于: 2020-11-29 08:46:23        🧑  作者: Mango
以下是下载和使用Talend Open Studio的系统要求-推荐的操作系统Microsoft Windows 10Ubuntu 16.04 LTS苹果macOS 10.13 / High Sierra记忆需求内存-至少4 GB,建议8 GB储存空间-30 GB此外,您还需要一个正在运行的Hadoop集群(最好是Cloudera。注– Java 8必须在已设置环境变量的情况下可用。...
📅  最后修改于: 2020-11-29 08:46:49        🧑  作者: Mango
要下载大数据和数据集成的Talend Open Studio,请按照以下步骤操作-步骤1-转到页面:https://www.talend.com/products/big-data/big-data-open-studio/并单击下载按钮。您可以看到TOS_BD_xxxxxxx.zip文件开始下载。步骤2-下载完成后,解压缩zip文件的内容,它将创建一个包含所有Talend文件的文件夹。步骤3-打...
📅  最后修改于: 2020-11-29 08:47:04        🧑  作者: Mango
Talend Open Studio是用于数据集成和大数据的免费开源ETL工具。它是基于Eclipse的开发人员工具和职位设计师。您只需要拖放组件并将其连接即可创建和运行ETL或ETL作业。该工具将自动为作业创建Java代码,而您无需编写任何代码。有多种选项可与数据源(如RDBMS,Excel,SaaS Big Data生态系统)以及SAP和CRM,Dropbox等应用程序和技术连接。Talend...
📅  最后修改于: 2020-11-29 08:47:36        🧑  作者: Mango
大多数组织都从多个位置获取数据并分别存储。现在,如果组织必须进行决策,则必须从不同来源获取数据,将其放在统一的视图中,然后对其进行分析以获得结果。此过程称为数据集成。好处数据集成具有许多好处,如下所述-改善组织中尝试访问组织数据的不同团队之间的协作。由于有效地集成了数据,因此节省了时间并简化了数据分析。自动化数据集成过程可同步数据并简化实时和定期报告,否则,如果手动完成,则很耗时。从多个来源集成的...
📅  最后修改于: 2020-11-29 08:47:55        🧑  作者: Mango
业务模型是数据集成项目的图形表示。它是业务工作流程的非技术表示。为什么需要业务模型?建立业务模型是为了向高级管理层展示您的工作,并且还可以使您的团队了解您要完成的工作。设计业务模型被视为组织在数据集成项目开始时采用的最佳实践之一。此外,它有助于降低成本,可以发现并解决项目中的瓶颈。如果需要,可以在项目实施期间和之后修改模型。在Talend Open Studio中创建业务模型Talend开放式工作...
📅  最后修改于: 2020-11-29 08:48:16        🧑  作者: Mango
Talend中的所有操作均由连接器和组件执行。 Talend提供800多种连接器和组件,以执行多种操作。这些组件显示在面板中,并且组件属于21个主要类别。您可以选择连接器,然后将其拖放到设计器窗格中,它将自动创建Java代码,并在保存Talend代码时进行编译。包含组件的主要类别如下所示-以下是Talend Open Studio中用于数据集成的广泛使用的连接器和组件的列表-tMysqlConne...
📅  最后修改于: 2020-11-29 08:48:47        🧑  作者: Mango
这是业务模型的技术实现/图形表示。在这种设计中,一个或多个组件相互连接以运行数据集成过程。因此,当您在设计窗格中拖放组件并通过连接器进行连接时,作业设计会将所有内容转换为代码,并创建一个完整的可运行程序以形成数据流。创建工作在存储库窗口中,右键单击“作业设计”,然后单击“创建作业”。提供作业的名称,目的和描述,然后单击完成。您可以看到您的工作已在“工作设计”下创建。现在,让我们使用此作业来添加组件...
📅  最后修改于: 2020-11-29 08:49:12        🧑  作者: Mango
元数据基本上是指有关数据的数据。它说明了什么,什么时候,为什么,谁,哪里,什么以及如何进行数据。在Talend中,元数据包含有关Talend studio中存在的数据的全部信息。元数据选项位于Talend Open Studio的“存储库”窗格内。Talend Metadata下提供了各种来源,例如数据库连接,不同类型的文件,LDAP,Azure,Salesforce,Web服务FTP,Hadoo...
📅  最后修改于: 2020-11-29 08:49:33        🧑  作者: Mango
上下文变量是在不同环境中可以具有不同值的变量。您可以创建一个可以容纳多个上下文变量的上下文组。您无需将每个上下文变量一个接一个地添加到作业,只需将上下文组添加到作业即可。这些变量用于使代码准备就绪。它的意思是通过使用上下文变量,您可以在开发,测试或生产环境中移动代码,它将在所有环境中运行。在任何作业中,您都可以转到“上下文”选项卡,如下所示,并添加上下文变量。...
📅  最后修改于: 2020-11-29 08:49:55        🧑  作者: Mango
在本章中,让我们研究管理作业和Talend中包含的相应功能。激活/停用组件激活/停用组件非常简单。您只需要选择组件,右键单击它,然后选择停用或激活该组件选项即可。导入/导出项目和建筑工作要从作业中导出项目,请在作业设计中右键单击该作业,然后单击导出项目。输入要将项目导出到的路径,然后单击“完成”。要从作业中导入项目,请在作业设计中右键单击该作业,然后单击导入项目。从要导入项目的地方浏览根目录。选中...
📅  最后修改于: 2020-11-29 08:50:15        🧑  作者: Mango
在本章中,让我们了解如何在Talend中处理作业执行。要构建作业,请右键单击该作业,然后选择“构建作业”选项。提及要在其中存档作业的路径,选择作业版本和构建类型,然后单击“完成”。如何在普通模式下运行作业要在普通节点上运行作业,您需要选择“基本运行”,然后单击“运行”按钮以开始执行。如何在调试模式下运行作业要以调试模式运行作业,请向要调试的组件添加断点。然后,选择并右键单击该组件,单击“添加断点”...
📅  最后修改于: 2020-11-29 08:50:39        🧑  作者: Mango
具有大数据的Open Studio的标语是“使用领先的免费大数据ETL开放源工具简化ETL和ELT。”在本章中,让我们研究一下Talend作为在大数据环境中处理数据的工具的用法。介绍Talend Open Studio –大数据是一个免费的开源工具,可在大数据环境中非常轻松地处理数据。 Talend Open Studio中有大量可用的大数据组件,通过简单地拖放几个Hadoop组件,您就可以创建和...
📅  最后修改于: 2020-11-29 08:51:22        🧑  作者: Mango
在本章中,让我们详细了解Talend如何与Hadoop分布式文件系统一起使用。设置和先决条件在继续使用HDFS进入Talend之前,我们应了解为此目的应满足的设置和先决条件。在这里,我们在虚拟机上运行Cloudera quickstart 5.10 VM。此VM中必须使用仅主机网络。仅限主机的网络IP:192.168.56.101您还必须在cloudera Manager上运行相同的主机。现在,在...