Web 内容、Web 结构和 Web 使用挖掘之间的区别

Web 挖掘是数据挖掘技术的一种应用，用于从 Web 数据中查找信息模式。网络挖掘通过识别网页和分类网络文档来帮助提高网络搜索引擎的能力。

网络挖掘的类型：

1. 网络内容挖掘——
Web 内容挖掘可用于从网页内容中挖掘有用的数据、信息和知识。 Web 内容挖掘根据输入的内容，通过在搜索引擎中显示列表，对文本、图像和网页组进行扫描和挖掘。

有两种方法可用于 Web 内容挖掘：

2. 网页结构挖掘——
Web Structure Mining 可用于发现超链接的链接结构。结构挖掘的目的是生成网站和类似网页的结构摘要。对网络中的超链接结构感兴趣。这种类型的挖掘应用于文档级别和超链接级别。 Web Structure Mining 在挖掘过程中扮演着非常重要的角色。

3. 网络使用挖掘——
Web Usage Mining 用于挖掘网络日志记录(网页访问信息)。它有助于发现网页的用户访问模式。有许多可用的研究项目和工具可以为不同的目的分析这些模式。应用于网络挖掘的挖掘技术主要有四种，即关联规则挖掘、序列模式、聚类和分类。

Web 内容、Web 结构和 Web 使用挖掘之间的区别：

Criterion	Web Content		Web Structure	Web Usage
Criterion	IR VIEW	DB VIEW	Web Structure	Web Usage
View of data	Unstructured Structured	Semi-structured Website as DB	Link structure	Interactivity
Main data	Text documents Hypertext documents	Hypertext documents	Link structure	Server logs Browser logs
Method	Machine Learning Statistical (Including NLP)	Proprietary algorithm Association rules	Proprietary algorithm	Machine learning Statistical Association Rules
Representation	Bag of words, n-gram terms Phrases, concepts or ontology Relational	Edged labeled graph Relational	Graph	Relational Table Graph
Application Categories	Categorization Clustering Finding Extract rules Finding Patterns in text	Finding frequent sub structures Web site schema discovery	Categorization Clustering	Site construction Adaptation and management