📅  最后修改于: 2020-12-30 00:36:45             🧑  作者: Mango
有不同类型的数据仓库,如下所示:
可以实现两种类型的基于主机的数据仓库:
数据提取和转换工具允许从生产系统中自动提取和清除数据。由于以下原因,不适用于允许查询工具直接访问这些方法类别:
驻留在MVS上的大容量数据库上的那些数据仓库使用是基于主机的数据仓库类型。 DBMS通常是具有大量旧信息原始资源的DB2,包括VSAM,DB2,平面文件和信息管理系统(IMS)。
在着手设计,建造和实施这种仓库之前,必须进一步考虑一些因素,因为
为了使此类数据仓库构建成功,通常遵循以下阶段:
集成的元数据存储库对于任何数据仓库环境都是至关重要的。需要这样的工具才能为仓库记录数据源,数据转换规则和用户区域。它在多个数据源数据库和条件数据仓库的DB2之间提供了动态网络。
元数据存储库是设计,构建和维护数据仓库流程所必需的。它应该能够提供有关数据所在的操作系统和数据仓库中都存在哪些数据的数据。将操作数据映射到仓库字段和最终用户访问技术。查询,报告和维护是此类数据仓库不可或缺的方法。用于DB2的基于MVS的查询和报告工具。
Oracle和Informix RDBMS支持此类数据仓库的功能。这两个数据库都可以从基于MVS的数据库以及更多数量的其他基于UNIX的数据库中提取信息。这些类型的仓库与基于主机的MVS数据仓库处于同一阶段。同样,可以创建来自不同网络服务器的数据。由于文件属性一致性在整个网络中很常见。
基于LAN的工作组仓库是用于在LAN环境中构建和维护数据仓库的集成结构。在这个仓库中,我们可以从各种资源中提取信息,并支持多个基于LAN的仓库,通常选择的仓库数据库包括DB2系列,Oracle,Sybase和Informix。 IMS,VSAM,平面文件,MVS和VH也可能很少包含其他数据库。
基于LAN的工作组仓库是为工作组环境而设计的,它对于想要建立通常称为数据集市的数据仓库的任何业务组织都是最佳的。这种类型的数据仓库通常需要最少的初始投资和技术培训。
数据交付:使用基于LAN的工作组仓库,客户只需很少的技术知识即可创建和维护自定义供部门,业务部门或工作组使用的数据存储。基于LAN的工作组仓库通过提供对仓库中数据的传输访问权限来确保从公司资源中传递信息。
在基于LAN的数据仓库中,数据交付可以集中处理,也可以从工作组环境进行处理,因此业务组可以满足他们所需的数据处理过程,而不会增加中央IT资源的负担,享受其数据集市的自主权,而无需在其中包含总体数据完整性和安全性企业。
DBMS和硬件可伸缩性方法通常都限制基于LAN的仓库解决方案。
许多基于LAN的企业尚未实现适当的作业计划,恢复管理,有组织的维护和性能监视方法来提供可靠的仓储解决方案。
通常,这些仓库依赖其他平台进行源记录。建立具有数据完整性,可恢复性和安全性的环境需要仔细的设计,规划和实施。否则,从源到服务器的转换和负载同步可能会导致无数问题。
基于LAN的仓库可提供来自许多资源的数据,这些数据需要最少的初始投资和技术知识。基于LAN的仓库还可以使用复制工具来填充和更新数据仓库。这种类型的仓库可以包括业务视图,历史记录,聚合,版本和异构源支持,例如
单个存储通常会驱动基于LAN的仓库并提供现有的DSS应用程序,从而使业务用户能够在其数据仓库中定位数据。基于LAN的仓库可以为业务用户提供完整的数据到信息解决方案。基于LAN的仓库还可以共享元数据,并具有对业务数据进行分类的功能,并使任何需要它的人都可以使用。
它指的是通过聚合来分析数据的转换方法的多个阶段。换句话说,在将数据加载到数据仓库之前多次对数据进行分段,首先将数据从源系统中提取到分段区域,然后在更改后被加载到数据仓库,最后再到部门数据集市。
此配置非常适合以下环境,在这些环境中,具有多种能力的最终客户需要访问汇总信息以获取最新的战术决策以及汇总的长期战略决策的可交换记录。取决于数量和自定义要求,运营数据存储(ODS)和数据仓库都可以驻留在基于主机或基于LAN的数据库上。它们包含DB2,Oracle,Informix,IMS,平面文件和Sybase。
通常,ODS仅存储最新记录。数据仓库存储文件的历史计算。首先,两个数据库中的信息将非常相似。例如,新客户的记录将看起来相同。当用户记录发生更改时,OD将被刷新以仅反映最新数据,而数据仓库将包含历史数据和新信息。因此,数据仓库的数量需求将超过ODS加班的数量需求。在实践中达到4:1的比例是不熟悉的。
在这种类型的数据仓库中,数据不会从源中更改,如图所示:
相反,客户可以直接访问数据。对于许多组织而言,访问方式很少,数量问题或公司必需品决定了这种方法。此架构确实会给客户带来一些问题,例如
这样的仓库可能需要高度专业化和复杂的“中间件”,并且可能需要与客户进行一次交互。这对于设施在生成报告之前为用户显示提取的记录也很重要。在这种环境下,集成的元数据存储库变得绝对必要。
分布式数据仓库的概念表明,存在两种类型的分布式数据仓库及其对本地企业仓库的修改,它们分布在整个企业和全局仓库中,如图所示:
虚拟数据仓库在以下阶段中创建:
该策略定义了允许最终用户使用对数据访问网络实施的任何工具直接访问可操作的数据库。这种方法提供了最大的灵活性,以及必须加载和维护的最少冗余信息。数据仓库是一个好主意,但它很难构建,需要投资。为什么不通过消除元数据和另一个数据库的存储库的转换阶段来使用便宜且快速的方法。这种方法称为“虚拟数据仓库” 。
为此,需要定义四种数据: