📅  最后修改于: 2020-12-30 00:32:04             🧑  作者: Mango
数据仓库体系结构是一种定义数据通信处理和表示的整体体系结构的方法,该体系结构存在于企业中的最终客户端计算中。每个数据仓库都是不同的,但是都具有标准的关键组件。
生产应用程序(如工资核算,应付账款产品购买和库存控制)设计用于在线交易处理(OLTP) 。这样的应用程序每天收集详细的数据。
数据仓库应用程序旨在支持用户临时数据要求,该活动最近被称为在线分析处理(OLAP)。这些包括诸如预测,分析,摘要报告和趋势分析之类的应用程序。
生产数据库通过手工或通过OLTP应用程序进行连续更新。相反,通常在下班时间从操作系统定期更新仓库数据库。随着OLTP数据在生产数据库中累积,它会定期提取,过滤并加载到用户可以访问的专用仓库服务器中。在填充仓库时,必须对表进行非规范化的重组,清除错误和冗余的数据,并添加新的字段和键以反映用户对数据进行分类,合并和汇总的需求。
数据仓库及其架构非常取决于组织情况的要素。
三种常见的体系结构是:
作业系统
运作系统是在数据仓库来指代用于处理组织的每天的日常交易的系统中使用的方法。
平面文件
平面文件系统是其中存储事务数据的文件系统,并且系统中的每个文件都必须具有不同的名称。
元数据
一组数据,用于定义并提供有关其他数据的信息。
数据仓库中用于各种目的的元数据,包括:
元数据总结了有关数据的必要信息,这可以使查找和处理特定数据实例更加容易。例如,作者,数据构建和数据更改以及文件大小是非常基本的文档元数据的示例。
元数据用于将查询定向到最合适的数据源。
高度概括的数据
数据仓库的区域保存了仓库管理器生成的所有预定义的轻量级且高度汇总(汇总)的数据。
摘要信息的目标是加快查询性能。随着新信息加载到仓库中,摘要记录将不断更新。
最终用户访问工具
数据仓库的主要目的是向业务经理提供信息以进行战略决策。这些客户使用最终客户访问工具与仓库进行交互。
一些最终用户访问工具的示例可以是:
在将您的操作信息放入仓库之前,我们必须对其进行清理和处理。
尽管数据仓库使用临时区域(进入仓库之前处理数据的地方),但是e可以通过编程方式执行此操作。
暂存区域简化了来自多个源系统的操作方法的数据清理和合并,尤其是对于企业数据仓库已合并了企业所有相关数据的企业。
数据仓库暂存区是一个临时位置,从源系统复制记录。
我们可能想为组织内的多个小组定制仓库的架构。
我们可以通过添加数据集市来做到这一点。数据集市是数据仓库的一部分,可以提供信息以用于报告和分析公司中的部门,部门,部门或运营,例如销售,工资,生产等。
该图说明了将购买,销售和库存分开的示例。在此示例中,财务分析师希望分析购买和销售的历史数据或挖掘历史信息以做出有关客户行为的预测。
以下架构属性对于数据仓库系统是必需的:
1.分离:分析处理和事务处理应尽可能分开。
2.可伸缩性:硬件和软件体系结构应该易于升级,以升级必须管理和处理的数据量,并且必须满足的用户需求数量逐渐增加。
3.可扩展性:体系结构应该能够执行新的操作和技术,而无需重新设计整个系统。
4.安全性:由于策略数据存储在数据仓库中,因此有必要监视访问。
5.可管理性:数据仓库管理不应复杂。
在实践中,不定期使用单层体系结构。其目的是最大程度地减少存储数据量以实现此目标。它删除了数据冗余。
该图显示了物理上唯一可用的层是源层。在这种方法中,数据仓库是虚拟的。这意味着数据仓库被实现为由特定中间件或中间处理层创建的操作数据的多维视图。
该体系结构的漏洞在于无法满足分析处理和事务处理之间分离的要求。中间件解释分析查询后,同意对操作数据进行分析。这样,查询会影响事务性工作负载。
分离的需求在定义数据仓库系统的两层体系结构中起着至关重要的作用,如图所示:
尽管通常将其称为两层体系结构以突出显示物理可用源与数据仓库之间的分离,但实际上它由四个后续数据流阶段组成:
三层体系结构由源层(包含多个源系统),协调层和数据仓库层(包含数据仓库和数据集市)组成。协调层位于源数据和数据仓库之间。
协调层的主要优点是,它为整个企业创建了标准参考数据模型。同时,它将源数据提取和集成问题与数据仓库填充问题分开。在某些情况下,对帐层还直接用于更好地完成某些操作任务,例如生成使用公司应用程序无法令人满意地准备的每日报告,或生成数据流以定期馈送外部流程以受益于清理和集成。
该体系结构对于广泛的企业级系统特别有用。这种结构的缺点是通过额外的冗余协调层使用了额外的文件存储空间。这也使分析工具离实时性稍远了。