📅  最后修改于: 2021-01-11 06:33:02             🧑  作者: Mango
万维网包含大量信息,这些信息为数据挖掘提供了丰富的资源。
基于以下观察,网络对资源和知识发现提出了巨大挑战-
Web太大-Web的大小非常巨大并且正在迅速增加。看来对于数据仓库和数据挖掘来说,网络太大了。
网页的复杂性−网页没有统一的结构。与传统的文本文档相比,它们非常复杂。网络数字图书馆中有大量文件。这些库不是按照任何特定的排序顺序排列的。
Web是动态信息源-Web上的信息会快速更新。定期更新新闻,股市,天气,体育,购物等数据。
用户社区的多样性-网络上的用户社区正在迅速扩展。这些用户具有不同的背景,兴趣和使用目的。有超过1亿个工作站连接到Internet,并且仍在迅速增长。
信息的相关性-人们认为特定的人通常只对网络的一小部分感兴趣,而网络的其余部分包含与用户无关的信息,并且可能淹没期望的结果。
网页的基本结构基于文档对象模型(DOM)。 DOM结构是指类似于树的结构,其中页面中的HTML标记对应于DOM树中的节点。我们可以使用HTML中的预定义标签对网页进行细分。 HTML语法是灵活的,因此,网页不符合W3C规范。不遵循W3C的规范可能会导致DOM树结构错误。
最初引入DOM结构是为了在浏览器中呈现,而不是为了描述网页的语义结构。 DOM结构无法正确识别网页不同部分之间的语义关系。
VIPS的目的是基于其视觉表示提取网页的语义结构。
这样的语义结构对应于树结构。在该树中,每个节点对应一个块。
为每个节点分配一个值。该值称为相干度。基于视觉感知,分配该值以指示块中的相干内容。
VIPS算法首先从HTML DOM树中提取所有合适的块。之后,它将找到这些块之间的分隔符。
分隔符是指网页中水平或垂直的线条,这些线条在视觉上无障碍。
网页的语义是基于这些块构建的。
下图显示了VIPS算法的过程-