Web 挖掘是数据挖掘技术的一种应用,用于从 Web 数据中查找信息模式。网络挖掘通过识别网页和分类网络文档来帮助提高网络搜索引擎的能力。
网络挖掘的类型:
1. 网络内容挖掘——
Web 内容挖掘可用于从网页内容中挖掘有用的数据、信息和知识。 Web 内容挖掘根据输入的内容,通过在搜索引擎中显示列表,对文本、图像和网页组进行扫描和挖掘。
有两种方法可用于 Web 内容挖掘:
- (i) 基于代理的方法:
这种方法涉及智能系统。它通常依赖于能够识别相关网站的自主代理。 - (ii) 基于数据的方法:
基于数据的方法用于将互联网上存在的半结构化数据组织成结构化数据。
2. 网页结构挖掘——
Web Structure Mining 可用于发现超链接的链接结构。结构挖掘的目的是生成网站和类似网页的结构摘要。对网络中的超链接结构感兴趣。这种类型的挖掘应用于文档级别和超链接级别。 Web Structure Mining 在挖掘过程中扮演着非常重要的角色。
3. 网络使用挖掘——
Web Usage Mining 用于挖掘网络日志记录(网页访问信息)。它有助于发现网页的用户访问模式。有许多可用的研究项目和工具可以为不同的目的分析这些模式。应用于网络挖掘的挖掘技术主要有四种,即关联规则挖掘、序列模式、聚类和分类。
Web 内容、Web 结构和 Web 使用挖掘之间的区别:
Criterion | Web Content | Web Structure | Web Usage | |
---|---|---|---|---|
IR VIEW | DB VIEW | |||
View of data |
|
|
|
|
Main data |
|
Hypertext documents | Link structure |
|
Method |
|
|
Proprietary algorithm |
|
Representation |
|
|
Graph |
|
Application Categories |
|
|
|
|