Web挖掘是数据挖掘技术的过程,可自动发现Web文档和服务中的信息并从中提取信息。 Web挖掘的主要目的是从World Wide Web及其使用模式中发现有用的信息。
Web挖掘的应用程序:
- Web挖掘通过对Web文档进行分类并识别Web页面来帮助提高Web搜索引擎的功能。
- 它用于Web搜索(例如Google,Yahoo等)和垂直搜索(例如FatLens,Beet等)。
- Web挖掘用于预测用户行为。
- Web挖掘对于特定的网站和电子服务非常有用,例如,目标页面优化。
Web挖掘大致可分为三种不同类型的挖掘技术:Web内容挖掘,Web结构挖掘和Web使用率挖掘。这些解释如下。
- 网站内容挖掘:
Web内容挖掘是从Web文档的内容中提取有用信息的应用程序。 Web内容包含几种类型的数据-文本,图像,音频,视频等。内容数据是设计网页的一组事实。它可以提供有关用户需求的有效且有趣的模式。文本文档与文本挖掘,机器学习和自然语言处理有关。这种挖掘也称为文本挖掘。这种类型的挖掘根据输入的内容执行文本,图像和网页组的扫描和挖掘。 - Web结构挖掘:
Web结构挖掘是从Web发现结构信息的应用程序。网络图的结构由作为节点的网页和作为连接相关页面的边的超链接组成。结构挖掘基本上显示了特定网站的结构化摘要。它标识通过信息链接的网页或直接链接连接之间的关系。为了确定两个商业网站之间的连接,Web结构挖掘可能非常有用。 - 网站用法挖掘:
Web使用率挖掘是一种从大型数据集中识别或发现有趣的使用模式的应用程序。这些模式使您能够了解用户行为或类似行为。在Web使用情况挖掘中,用户访问Web上的数据并以日志形式收集数据。因此,Web使用情况挖掘也称为日志挖掘。
数据挖掘和Web挖掘之间的比较:
Points | Data Mining | Web Mining |
---|---|---|
Definition | Data Mining is the process that attempts to discover pattern and hidden knowledge in large data sets in any system. | Web Mining is the process of data mining techniques to automatically discover and extract information from web documents. |
Application | Data Mining is very useful for web page analysis. | Web Mining is very useful for a particular website and e-service. |
Target Users | Data scientist and data engineers. | Data scientists along with data analysts. |
Access | Data Mining is access data privately. | Web Mining is access data publicly. |
Structure | In Data Mining get the information from explicit structure. | In Web Mining get the information from structured, unstructured and semi-structured web pages. |
Problem Type | Clustering, classification, regression, prediction, optimization and control. | Web content mining, Web structure mining. |
Tools | It includes tools like machine learning algorithms. | Special tools for web mining are Scrapy, PageRank and Apache logs. |
Skills | It includes approaches for data cleansing, machine learning algorithms. Statistics and probability. | It includes application level knowledge, data engineering with mathematical modules like statistics and probability. |