数据挖掘-挖掘万维网 - 芒果文档

📌 相关文章

📜 数据挖掘-挖掘万维网

📅 最后修改于: 2021-01-11 06:33:02 🧑 作者: Mango

万维网包含大量信息，这些信息为数据挖掘提供了丰富的资源。

网络挖掘的挑战

基于以下观察，网络对资源和知识发现提出了巨大挑战-

Web太大-Web的大小非常巨大并且正在迅速增加。看来对于数据仓库和数据挖掘来说，网络太大了。
网页的复杂性−网页没有统一的结构。与传统的文本文档相比，它们非常复杂。网络数字图书馆中有大量文件。这些库不是按照任何特定的排序顺序排列的。
Web是动态信息源-Web上的信息会快速更新。定期更新新闻，股市，天气，体育，购物等数据。
用户社区的多样性-网络上的用户社区正在迅速扩展。这些用户具有不同的背景，兴趣和使用目的。有超过1亿个工作站连接到Internet，并且仍在迅速增长。
信息的相关性-人们认为特定的人通常只对网络的一小部分感兴趣，而网络的其余部分包含与用户无关的信息，并且可能淹没期望的结果。

挖掘网页布局结构

网页的基本结构基于文档对象模型(DOM)。 DOM结构是指类似于树的结构，其中页面中的HTML标记对应于DOM树中的节点。我们可以使用HTML中的预定义标签对网页进行细分。 HTML语法是灵活的，因此，网页不符合W3C规范。不遵循W3C的规范可能会导致DOM树结构错误。

最初引入DOM结构是为了在浏览器中呈现，而不是为了描述网页的语义结构。 DOM结构无法正确识别网页不同部分之间的语义关系。

基于视觉的页面细分(VIPS)

VIPS的目的是基于其视觉表示提取网页的语义结构。
这样的语义结构对应于树结构。在该树中，每个节点对应一个块。
为每个节点分配一个值。该值称为相干度。基于视觉感知，分配该值以指示块中的相干内容。
VIPS算法首先从HTML DOM树中提取所有合适的块。之后，它将找到这些块之间的分隔符。
分隔符是指网页中水平或垂直的线条，这些线条在视觉上无障碍。
网页的语义是基于这些块构建的。

下图显示了VIPS算法的过程-

VIPS