📜  什么是网络使用挖掘?

📅  最后修改于: 2021-10-19 08:11:05             🧑  作者: Mango

Web 使用挖掘是数据挖掘的一个子集,基本上是提取各种类型的有趣数据,这些数据可以在巨大的网页、互联网或正式称为万维网 (WWW) 的海洋中随时可用和访问。作为数据挖掘技术的应用之一,它有助于分析用户在不同网页上的活动并在一段时间内对其进行跟踪。基本上,Web Usage Mining 可以根据 Web 使用数据分为 2 个主要子类别。

有 3 种主要类型的网络数据:

网络数据的类型

1.网页内容数据:网页内容数据的常见形式有HTML、网页、图片音视频等,主要是HTML格式。尽管它可能因浏览器而异,但通用的基本布局/结构在任何地方都是相同的。因为它是 Web 内容数据中最受欢迎的。 XML 和动态服务器页面(如 JSP、 PHP等)也是各种形式的 Web 内容数据。

2、网页结构数据:在网页上,有按照HTML标签排列的内容(称为页内结构信息)。网页通常具有将主网页连接到子网页的超链接。这称为页间结构信息。所以基本上描述网页之间连接的关系/链接是网络结构数据。

3. Web 使用数据:这里的主要数据来源是-Web Server 和Application Server。它涉及由上述两个主要来源收集的日志数据。当用户/客户与网页交互时会创建日志文件。这种类型的数据根据其来源主要可以分为三类:

  • 服务器端
  • 客户端
  • 代理端。

还有其他额外的数据源,包括 cookie、人口统计等。

基于使用数据的 Web 使用挖掘类型:

1. Web 服务器数据: Web 服务器数据一般包括IP 地址、浏览器日志、代理服务器日志、用户配置文件等。Web 服务器数据正在收集用户日志。

2. 应用服务器数据:商业应用服务器的一个附加功能是在其上构建应用程序。跟踪各种业务事件并记录到应用服务器日志中,主要是应用服务器数据的组成。

3. 应用程序级数据:应用程序中可以存在各种新的事件。其中启用的日志记录功能可帮助我们获取事件的过去记录。

网络使用挖掘的优势

  • 政府机构受益于这项技术来战胜恐怖主义。
  • 采矿工具的预测能力有助于识别各种犯罪活动。
  • 借助这些挖掘工具,公司可以更好地了解客户关系。它可以帮助他们更快、更有效地满足客户的需求。

网络使用挖掘的缺点

  • 隐私是一个主要问题。为客户的利益分析数据是好的。但是将相同的数据用于其他事情可能是危险的。在个人的知识范围内使用它可能对公司构成巨大威胁。
  • 数据挖掘公司没有高道德标准,可以结合两个或多个属性来获取用户的一些个人信息,这也是不值得尊重的。

    网络使用挖掘中的一些技术

    网络使用技术挖掘

    1. 关联规则: Web 使用挖掘中最常用的技术是关联规则。基本上,该技术侧重于在用户会话中经常一起出现的网页之间的关系。一起访问的页面总是放在一个服务器会话中。关联规则有助于使用访问日志重建网站。访问日志通常包含有关接近网络服务器的请求的信息。这种技术的主要缺点是将如此多的规则集一起生成可能会导致某些规则完全无关紧要。它们也可能不会用于将来使用。

    2.分类:分类主要是将一个特定的记录映射到多个预定义的类。 Web 使用挖掘的主要目标是开发与特定类别/类别相关联的用户/客户配置文件。对于这一确切的事情,需要提取最适合相关类的最佳特征。分类可以通过各种算法实现 – 其中一些包括 – 支持向量机、K-最近邻、逻辑回归、决策树等。例如,拥有客户过去 6 个月购买历史的数据跟踪记录客户可以分为频繁和不频繁的类别/类别。在其他情况下也可以有多类。

    3. 聚类:聚类是一种将具有相似特征/特征的事物组合在一起的技术。主要有两种类型的集群 – 第一种是使用集群,第二种是页面集群。基于使用数据可以容易地执行页面的聚类。在基于使用的聚类中,通常一起访问/购买的项目可以自动组织成组。用户的聚类倾向于建立表现出相似浏览模式的用户组。在页面聚类中,基本概念是通过网页快速获取信息。

    网络使用挖掘的应用

    1. Web 内容的个性化:万维网拥有大量信息,并且每天都在迅速扩展。最大的问题是,人们每天的特定需求都在增加,而且他们经常得不到那个查询结果。因此,对此的解决方案是网络个性化。 Web 个性化可以定义为根据用户的导航行为跟踪和他们的兴趣来满足用户的需求。 Web Personalization 包括推荐系统、复选框定制等。推荐系统很流行,被很多公司使用。

    网络流个性化

    2. 电子商务:网络使用挖掘在网络公司中扮演着非常重要的角色。由于他们的最终重点是吸引客户、保留客户、交叉销售等。为了与客户建立牢固的关系,基于网络的公司非常有必要依靠网络使用情况挖掘来获得很多见解关于客户的利益。此外,它还告诉公司在某些方面改进其网页设计。

    3.预取和捕获:预取基本上意味着在需要减少等待数据的时间之前加载数据,因此称为“预取”。我们从 Web 使用挖掘中获得的所有结果都可用于生成预取和缓存策略,从而大大减少服务器响应时间。