📜  数据分析中的计划聚类

📅  最后修改于: 2021-05-19 19:53:13             🧑  作者: Mango

在本文中,我们将讨论数据分析中的计划集群。

预计的聚类:
投影聚类算法是第一个基于k-medoid聚类概念的自顶向下划分的投影聚类算法,该算法由Aggarwal(1999)提出。它使用贪婪的爬山技术反复从数据样本中确定每个聚类的类固醇,然后重复升级结果。投影聚类中的聚类质量是数据点和最接近的medoid之间平均距离的函数。而且,子空间维数是一个输入框架,它生成大小相同的簇。

预计聚类的特征:

  • 投影聚类是一种典型的维度-约简子空间聚类方法。也就是说,它不是从一维空间开始,而是通过识别高维属性空间中的聚类的初始近似来进行的。
  • 然后为每个维度分配每个群集的权重,并在下一次重复中使用更新后的权重来还原群集。这导致检查某些渴望尺寸的所有子空间中的密集区域。
  • 它避免了在低维数中产生大量重叠的簇。
  • 投影聚类通过爬山技术找到了最好的类固醇集合,但被普遍用于处理投影聚类。
  • 它获取一个称为“曼哈顿分段距离”的距离度量。
  • 该算法由三个阶段组成:初始化,迭代,聚类优化。
  • 但是,由于对大型数据集进行了采样,所以投影聚类比CLIQUE更快,尽管使用少量说明性点可能会使该算法完全遗漏某些聚类。
  • 投影聚类的实验表明,该程序在查找高维聚类时具有结构性和可伸缩性。该算法查找点的非重叠分区。

预测聚类的输入和输出:
输入 –

  • 数据点组。
  • 簇数,用k表示。
  • 每个群集的平均维数,以L表示。

输出 –

  • 确定了群集,并确定了此类群集的尺寸。