先决条件– ETL(提取,转换和加载)过程
ETL代表提取,转换和加载。
这三个数据库功能已合并到一个工具中,以从一个数据库中提取数据并将数据放入另一个数据库中。
大数据包含范围广泛的海量数据,这些数据可以是结构化的也可以是非结构化的。 RDBMS发现处理海量数据具有挑战性。同样,RDBMS旨在保持稳定的数据而不是快速增长。这就是数据仓库的来源。
数据仓库支持所有类型的数据,还可以处理数据的快速增长。因此,对于数据分析,需要将数据从数据库转移到数据仓库。下图可以很好地说明ETL流程的工作。
ETL流程的应用程序是:
- 将数据移入和移出数据仓库。数据库不适用于大数据分析,因此,需要通过ETL流程将数据从数据库转移到数据仓库。
- 数据策略比以往任何时候都更加复杂。 ETL有助于将大量数据转换为可操作的商业智能。
ETL中有两种方法:
- 自上而下的方法 :
自上而下的OLAP环境中的数据流始于从运营数据源中提取数据。将该数据加载到暂存区中,并进行验证和合并以确保正确性,然后将其移至操作数据存储(ODS)。如果ODS阶段是操作数据库的另一个副本,则有时会被跳过。并行将数据加载到数据仓库中,以避免从ODS中提取数据。定期从ODS中提取数据,并将其临时托管在暂存区域中以进行汇总,汇总,然后提取并加载到数据仓库中。
是否需要消耗臭氧层物质取决于业务需求。如果需要数据仓库中的详细数据,则必须创建ODS。数据仓库的汇总和汇总过程完成后,数据集市将把数据仓库中的数据提取到暂存区中,并对它们执行一组新的转换。这将有助于按照数据集市的要求以特定结构组织数据。
之后,可以将数据加载到数据集市,并且OLAP环境对用户可用。数据仓库中的数据是历史数据。 Inmon提出了一种自上而下的模型方法,目的是使用传统的数据库建模技术(ER模型)创建一个集中的企业数据仓库,其中数据存储在3NF中。数据仓库现在充当新数据集市的数据源。
- Kimball方法论(自下而上的方法):
自下而上的方法颠倒了数据仓库和数据集市的位置。数据集市通过登台区域直接加载了数据。 ODS的存在取决于业务需求。自下而上方法中的数据流始于将数据从运营数据库中提取到暂存区域,在该暂存区域中对其进行处理和合并,然后将其加载到ODS中。ODS中的数据将附加到正在加载的新数据上或由正在加载的新数据替换。刷新ODS后,将当前数据再次提取到登台区域中并进行处理。来自数据集市的数据被拉到汇总,汇总等的暂存区域,然后加载到数据仓库中,并提供给最终用户进行分析。
ETL工具:
一些最常用的ETL工具是MarkLogic,Oracle,Sybase,Hevo和Xplenty。
ETL工具的优点:
- 易于使用。
- 同时加载来自不同目标的数据。
- 根据需要执行数据转换。
- 更适合复杂的规则和转换。
- 内置的错误处理功能。
- 基于GUI并提供可视化流程。
- 节省成本并产生更高的收入。
ETL工具的缺点:
- 不适合用于近实时数据访问。
- 更倾向于批处理数据
- 难以跟上不断变化的需求。