Web挖掘是Data Mining技术的一种应用程序,用于从Web数据中查找信息模式。 Web Mining通过标识网页和对Web文档进行分类来帮助提高Web搜索引擎的功能。
网络挖掘的类型:
1. Web内容挖掘–
Web内容挖掘可用于从网页内容中挖掘有用的数据,信息和知识。 Web内容挖掘通过在搜索引擎中显示列表,根据输入的内容执行文本,图像和一组网页的扫描和挖掘。
Web内容挖掘使用两种方法:
- (i)基于代理的方法:
这种方法涉及智能系统。它通常依赖于自治代理,该代理可以识别相关的网站。 - (ii)基于数据的方法:
基于数据的方法用于将Internet上存在的半结构化数据组织为结构化数据。
2. Web结构挖掘–
Web结构挖掘可用于发现超链接的链接结构。结构挖掘的目的是生成网站和类似网页的结构摘要。对网络内超链接的结构感兴趣。这种类型的挖掘适用于文档级别和超链接级别。 Web结构挖掘在挖掘过程中扮演着非常重要的角色。
3. Web使用情况挖掘–
Web用法挖掘用于挖掘Weblog记录(网页的访问信息)。它有助于发现网页的用户访问模式。有许多可用的研究项目和工具可以针对不同目的分析这些模式。 Web挖掘主要采用四种挖掘技术,即关联规则挖掘,顺序模式,聚类和分类。
Web内容,Web结构和Web用法挖掘之间的区别:
Criterion | Web Content | Web Structure | Web Usage | |
---|---|---|---|---|
IR VIEW | DB VIEW | |||
View of data |
|
|
|
|
Main data |
|
Hypertext documents | Link structure |
|
Method |
|
|
Proprietary algorithm |
|
Representation |
|
|
Graph |
|
Application Categories |
|
|
|
|