有许多数据库和数据源需要集成。几乎每个应用程序都有许多可用于协同工作的数据源。数据集成涉及集成来自各种来源的数据,并且它具有对来源的单一视图。这样做是为了使用组合的信息回答查询。它可以是物理的,也可以是虚拟的。物理数据集成将数据保存到仓库中。
虚拟集成将数据保留在源头。由于集成而出现的问题是跨源数据的异质性。在从语义(具有相似数据的属性的不同名称)、通信、模式或数据类型等来源收集数据时,可能存在各种异构问题。为了克服这些问题,设计了三种用于集成数据的模型,它们是联合数据库、数据仓库和中介。
全局视图(GAV):
全局视图是基于视图的数据集成的中介类型之一。全局模式充当源模式的视图,即中介模式是根据本地模式描述的。给定对全局模式的查询,中介器将遵循现有规则和模板将查询转换为特定于源的查询。它将新查询发送到包装器以供执行。包装器搜索所有可能的表达式以及如何组合它们来回答给定的查询。
应用:
- 企业信息集成,使公司拥有的独立数据库,它们一起工作。
- 科学数据库,例如基因组数据库。
- 整合目录——包括整合来自每个供应商的产品信息。
这个怎么运作 :
中介涉及一个中介,它是数据的虚拟视图,它不存储任何数据,因为数据存储在源中。来自不同来源的图式组合形成中介者的虚拟图式。映射发生在查询时。当用户查询时,它会映射到多个其他查询,并且每个查询都被发送到源。来源对其进行评估并将结果发回。
结果合并在一起并发送给最终用户。这个过程称为调解。它使用负责执行查询映射的包装器。它们使用代表许多查询的模板(已经创建),因此变得灵活。如果中介查询匹配模板,则返回结果,否则不返回。有两种类型的中介,它们是全局视图和本地视图。我们将讨论全局视图。
例子 :
让我们举个例子来理解 GAV 的工作。
集成目录。假设 Zexmon(一家公司)想要购买具有相同协议的 DIP 和 PGA 等芯片。
全局模式 –
DIP ( manufacturer, model, protocol )
PGA ( manufacturer, model, protocol )
本地架构 –
每个 DIP 和 PGA 制造商都有关系(型号、协议)。
Zexmon 将查询中介者。 Mediator 将首先向每个 DIP 制造商查询型号和协议对。包装器将通过添加属性制造商将它们变成三元组。来自每个 DIP 芯片的所有来源的协议返回给中介。
现在中介开始使用之前返回的协议查询所有 PGA 制造商。包装器再次将制造商属性添加到 (model, protocol) 对中。这就是中介如何检索具有相似协议的 DIP 和 PGA 芯片。这反过来有助于zexmon 购买所需的筹码。
好处 :
- 全局视图更容易实现,因为您可以控制中介的工作。
- 设计很简单。
- 查询回答方法是程序性的,因此它被许多工业系统实践。
缺点:
- 由于全局数据库涉及多个源,因此全局模式无法构建任何源模式中不存在的任何信息。
- 在将新源添加到现有源时,这是一种开销,因为必须确保现有源依赖于它,即很少添加独立源。如果添加了新源,则映射也必须更改。
- 可以生成的内容的视图被缩小了。
- 删除数据源也可能需要大量工作,使其变得不灵活。