📜  数据挖掘-聚类分析

📅  最后修改于: 2021-01-11 06:32:09             🧑  作者: Mango


群集是属于同一类的一组对象。换句话说,相似的对象被分组在一个群集中,而不同的对象被分组在另一群集中。

什么是群集?

聚类是将一组抽象对象变成相似对象类的过程。

要记住的要点

  • 一组数据对象可以视为一组。

  • 在进行聚类分析时,我们首先根据数据相似性将数据集划分为组,然后将标签分配给组。

  • 聚类优于分类的主要优点是,它可以适应变化,并有助于区分出不同组的有用功能。

聚类分析的应用

  • 聚类分析广泛用于许多应用程序,例如市场研究,模式识别,数据分析和图像处理。

  • 群集还可以帮助营销人员发现其客户群中的不同群体。他们可以根据购买模式来表征其客户群。

  • 在生物学领域,它可以用于推导动植物分类学,对具有相似功能的基因进行分类,并深入了解种群固有的结构。

  • 聚类还有助于在地球观测数据库中识别相似土地用途的区域。它还可以根据房屋类型,价值和地理位置来识别城市中的房屋组。

  • 群集还有助于对Web上的文档进行分类以进行信息发现。

  • 聚类还用于异常检测应用程序中,例如信用卡欺诈的检测。

  • 作为数据挖掘函数,聚类分析可作为一种工具,深入了解数据分布,以观察每个聚类的特征。

数据挖掘中的集群要求

以下几点阐明了为什么在数据挖掘中需要聚类-

  • 可扩展性-我们需要高度可扩展的集群算法来处理大型数据库。

  • 处理各种属性的能力-算法应该能够应用于任何类型的数据,例如基于间隔的(数字)数据,分类和二进制数据。

  • 发现具有属性形状的聚类-聚类算法应能够检测任意形状的聚类。它们不应仅局限于趋向于找到小尺寸球团的距离度量。

  • 高维-聚类算法不仅应能够处理低维数据,还应能够处理高维空间。

  • 处理噪声数据的能力-数据库包含噪声,丢失或错误的数据。一些算法对此类数据敏感,并可能导致质量较差的簇。

  • 可解释性-聚类结果应该是可解释的,可理解的和可用的。

聚类方法

聚类方法可以分为以下几类-

  • 分割方法
  • 分层方法
  • 基于密度的方法
  • 基于网格的方法
  • 基于模型的方法
  • 基于约束的方法

分割方法

假设给定一个包含“ n”个对象的数据库,并且分区方法构造了“ k”个数据分区。每个分区将代表一个群集且k≤n。这意味着它将把数据分为k组,满足以下要求-

  • 每一组至少包含一个对象。

  • 每个对象必须完全属于一个组。

要记住的要点-

  • 对于给定数量的分区(例如k),分区方法将创建一个初始分区。

  • 然后,它使用迭代重定位技术通过将对象从一组移动到另一组来改善分区。

分层方法

此方法创建给定数据对象集的层次分解。我们可以根据分层分解的形成方式对分层方法进行分类。这里有两种方法-

  • 凝聚法
  • 分裂法

凝聚法

这种方法也称为自下而上的方法。在此,我们从每个对象形成一个单独的组开始。它不断合并彼此接近的对象或组。它会一直这样做,直到所有组合并为一个,或者直到终止条件成立为止。

分裂法

这种方法也称为自顶向下方法。在此,我们从同一集群中的所有对象开始。在连续迭代中,一个群集被分成较小的群集。直到一个群集中的每个对象或终止条件成立为止。此方法是严格的,即一旦合并或拆分完成,就永远无法撤消。

提高分层聚类质量的方法

这是用于提高分层聚类质量的两种方法-

  • 在每个分层分区上仔细分析对象链接。

  • 首先使用分层凝聚算法将对象分组到微集群中,然后在微集群上执行宏集群,以集成分层集聚。

基于密度的方法

该方法基于密度的概念。基本思想是只要邻域中的密度超过某个阈值即可继续增长给定的簇,即,对于给定簇中的每个数据点,给定簇的半径必须至少包含最少数量的点。

基于网格的方法

在这种情况下,对象一起形成网格。对象空间被量化为形成网格结构的有限数量的单元。

好处

  • 这种方法的主要优点是处理时间短。

  • 它仅取决于量化空间中每个维度的像元数。

基于模型的方法

在这种方法中,为每个聚类假设一个模型,以找到给定模型的最佳数据拟合。该方法通过对密度函数进行聚类来定位聚类。它反映了数据点的空间分布。

此方法还提供了一种基于标准统计信息自动确定聚类数量的方法,同时考虑了异常值或噪声。因此,它产生了健壮的聚类方法。

基于约束的方法

在这种方法中,通过合并面向用户或面向应用程序的约束来执行聚类。约束是指用户期望或期望聚类结果的属性。约束为我们提供了与聚类过程进行交互的交互方式。约束可以由用户或应用程序要求指定。