📅  最后修改于: 2020-12-06 09:20:52             🧑  作者: Mango
数据仓库系统中的数据已通过ETL(提取,转换,加载)工具加载。顾名思义,它执行以下三个操作-
从事务系统中提取数据,该事务系统可以是Oracle,Microsoft或任何其他关系数据库,
通过执行数据清理操作来转换数据,然后
将数据加载到OLAP数据仓库中。
您还可以使用ETL工具从电子表格和CSV文件等平面文件中提取数据,并将其加载到OLAP数据仓库中以进行数据分析和报告。让我们以一个例子来更好地理解它。
让我们假设一家制造公司有多个部门,例如销售,人事,物料管理,EWM等。所有这些部门都有各自的数据库,可用来维护其工作信息,每个数据库具有不同的技术,布局,表格名称,列等。现在,如果公司要分析历史数据并生成报告,则应提取这些数据源中的所有数据并将其加载到数据仓库中以保存以进行分析。
ETL工具从所有这些异构数据源中提取数据,转换数据(例如应用计算,联接字段,键,删除不正确的数据字段等),然后将其加载到数据仓库中。以后,您可以使用各种商业智能(BI)工具来使用此数据生成有意义的报告,仪表板和可视化文件。
ETL工具用于从不同的数据源提取数据,转换数据并将其加载到DW系统中。但是,BI工具用于为最终用户生成交互式和临时报告,高级管理人员的仪表板,每月,每季度和每年的董事会会议的数据可视化。
最常见的ETL工具包括-SAP BO数据服务(BODS),Informatica – Power Center,Microsoft – SSIS,Oracle Data Integrator ODI,Talend Open Studio,Clover ETL Open source等。
一些流行的BI工具包括-SAP Business Objects,SAP Lumira,IBM Cognos,JasperSoft,Microsoft BI平台,Tableau,Oracle商业智能企业版等。
现在让我们更详细地讨论ETL过程中涉及的关键步骤-
它涉及从不同的异构数据源中提取数据。根据需求和所使用的ETL工具,从事务系统中提取数据会有所不同。通常是通过在下班时间运行计划的作业来完成的,例如晚上或周末运行作业。
它涉及将数据转换为可以轻松加载到DW系统中的合适格式。数据转换涉及应用计算,联接以及在数据上定义主键和外键。例如,如果您希望占总收入的百分比不在数据库中,则可以在转换中应用%公式并加载数据。同样,如果用户的名字和姓氏在不同的列中,则可以在加载数据之前应用串联操作。某些数据不需要任何转换。这种数据称为直接移动或通过数据。
数据转换还涉及数据校正和数据清理,删除不正确的数据,不完整的数据形成以及修复数据错误。它还包括数据完整性和格式化不兼容的数据,然后再将其加载到DW系统中。
它涉及将数据加载到DW系统中以进行分析报告和信息。目标系统可以是简单的定界平面文件或数据仓库。
典型的基于ETL工具的数据仓库使用暂存区,数据集成和访问层来执行其功能。它通常是3层架构。
分段层-分期层或分段数据库用于存储从不同的源的数据系统中提取的数据。
数据集成层-集成层将数据从登台层进行转换,然后将其移动到数据库中,在该数据库中,数据按层次结构组(通常称为维) ,事实和汇总事实进行排列。 DW系统中事实和维度表的组合称为模式。
访问层-最终用户使用访问层来检索数据以进行分析报告和信息。
下图显示了三层如何相互交互。