📜  数据挖掘-挖掘万维网

📅  最后修改于: 2021-01-11 06:33:02             🧑  作者: Mango


万维网包含大量信息,这些信息为数据挖掘提供了丰富的资源。

网络挖掘的挑战

基于以下观察,网络对资源和知识发现提出了巨大挑战-

  • Web太大-Web的大小非常巨大并且正在迅速增加。看来对于数据仓库和数据挖掘来说,网络太大了。

  • 网页的复杂性−网页没有统一的结构。与传统的文本文档相比,它们非常复杂。网络数字图书馆中有大量文件。这些库不是按照任何特定的排序顺序排列的。

  • Web是动态信息源-Web上的信息会快速更新。定期更新新闻,股市,天气,体育,购物等数据。

  • 用户社区的多样性-网络上的用户社区正在迅速扩展。这些用户具有不同的背景,兴趣和使用目的。有超过1亿个工作站连接到Internet,并且仍在迅速增长。

  • 信息的相关性-人们认为特定的人通常只对网络的一小部分感兴趣,而网络的其余部分包含与用户无关的信息,并且可能淹没期望的结果。

挖掘网页布局结构

网页的基本结构基于文档对象模型(DOM)。 DOM结构是指类似于树的结构,其中页面中的HTML标记对应于DOM树中的节点。我们可以使用HTML中的预定义标签对网页进行细分。 HTML语法是灵活的,因此,网页不符合W3C规范。不遵循W3C的规范可能会导致DOM树结构错误。

最初引入DOM结构是为了在浏览器中呈现,而不是为了描述网页的语义结构。 DOM结构无法正确识别网页不同部分之间的语义关系。

基于视觉的页面细分(VIPS)

  • VIPS的目的是基于其视觉表示提取网页的语义结构。

  • 这样的语义结构对应于树结构。在该树中,每个节点对应一个块。

  • 为每个节点分配一个值。该值称为相干度。基于视觉感知,分配该值以指示块中的相干内容。

  • VIPS算法首先从HTML DOM树中提取所有合适的块。之后,它将找到这些块之间的分隔符。

  • 分隔符是指网页中水平或垂直的线条,这些线条在视觉上无障碍。

  • 网页的语义是基于这些块构建的。

下图显示了VIPS算法的过程-

VIPS