数据分析中的投影聚类 - 芒果文档

📌 相关文章

📜 数据分析中的投影聚类

📅 最后修改于: 2021-09-08 15:25:41 🧑 作者: Mango

在本文中，我们将讨论数据分析中的投影聚类。

投影聚类：
投影聚类是第一个基于 Aggarwal (1999) 提出的 k-medoid 聚类概念的自顶向下划分投影聚类算法。它使用贪心爬山技术在数据样本上重复确定每个集群的中心点，然后重复升级结果。投影聚类中的聚类质量是数据点与最近中心点之间平均距离的函数。此外，子空间维度是一个输入框架，可生成相同大小的集群。

投影聚类的特点：

投影聚类是一种典型的降维子空间聚类方法。也就是说，它不是从单维空间开始，而是通过识别高维属性空间中集群的初始近似值来进行。
然后每个维度为每个集群分配一个权重，并在下一次重复中使用更新的权重来恢复集群。这导致检查某些渴望维度的所有子空间中的密集区域。
它避免了在较低维度上产生大量重叠集群。
投影聚类通过爬山技术找到最好的中心点集，但泛化用于处理投影聚类。
它获得称为曼哈顿分段距离的距离度量。
该算法由三个阶段组成：初始化、迭代、聚类细化。
然而，由于对大型数据集的采样，投影聚类比 CLIQUE 更快，尽管使用少量说明性点可能会导致该算法完全遗漏某些聚类。
投影聚类实验表明，该过程在寻找高维聚类方面是结构化和可扩展的。该算法找到点的非重叠分区。

投影聚类的输入和输出：
输入 –

数据点组。
簇数，用 k 表示。
每个集群的平均维度数，用 L 表示。

输出 –

识别的集群，以及尊重这些集群的维度。