在本文中,我们将讨论数据分析中的投影聚类。
投影聚类:
投影聚类是第一个基于 Aggarwal (1999) 提出的 k-medoid 聚类概念的自顶向下划分投影聚类算法。它使用贪心爬山技术在数据样本上重复确定每个集群的中心点,然后重复升级结果。投影聚类中的聚类质量是数据点与最近中心点之间平均距离的函数。此外,子空间维度是一个输入框架,可生成相同大小的集群。
投影聚类的特点:
- 投影聚类是一种典型的降维子空间聚类方法。也就是说,它不是从单维空间开始,而是通过识别高维属性空间中集群的初始近似值来进行。
- 然后每个维度为每个集群分配一个权重,并在下一次重复中使用更新的权重来恢复集群。这导致检查某些渴望维度的所有子空间中的密集区域。
- 它避免了在较低维度上产生大量重叠集群。
- 投影聚类通过爬山技术找到最好的中心点集,但泛化用于处理投影聚类。
- 它获得称为曼哈顿分段距离的距离度量。
- 该算法由三个阶段组成:初始化、迭代、聚类细化。
- 然而,由于对大型数据集的采样,投影聚类比 CLIQUE 更快,尽管使用少量说明性点可能会导致该算法完全遗漏某些聚类。
- 投影聚类实验表明,该过程在寻找高维聚类方面是结构化和可扩展的。该算法找到点的非重叠分区。
投影聚类的输入和输出:
输入 –
- 数据点组。
- 簇数,用 k 表示。
- 每个集群的平均维度数,用 L 表示。
输出 –
- 识别的集群,以及尊重这些集群的维度。