在本文中,我们将讨论数据分析中的计划集群。
预计的聚类:
投影聚类算法是第一个基于k-medoid聚类概念的自顶向下划分的投影聚类算法,该算法由Aggarwal(1999)提出。它使用贪婪的爬山技术反复从数据样本中确定每个聚类的类固醇,然后重复升级结果。投影聚类中的聚类质量是数据点和最接近的medoid之间平均距离的函数。而且,子空间维数是一个输入框架,它生成大小相同的簇。
预计聚类的特征:
- 投影聚类是一种典型的维度-约简子空间聚类方法。也就是说,它不是从一维空间开始,而是通过识别高维属性空间中的聚类的初始近似来进行的。
- 然后为每个维度分配每个群集的权重,并在下一次重复中使用更新后的权重来还原群集。这导致检查某些渴望尺寸的所有子空间中的密集区域。
- 它避免了在低维数中产生大量重叠的簇。
- 投影聚类通过爬山技术找到了最好的类固醇集合,但被普遍用于处理投影聚类。
- 它获取一个称为“曼哈顿分段距离”的距离度量。
- 该算法由三个阶段组成:初始化,迭代,聚类优化。
- 但是,由于对大型数据集进行了采样,所以投影聚类比CLIQUE更快,尽管使用少量说明性点可能会使该算法完全遗漏某些聚类。
- 投影聚类的实验表明,该程序在查找高维聚类时具有结构性和可伸缩性。该算法查找点的非重叠分区。
预测聚类的输入和输出:
输入 –
- 数据点组。
- 簇数,用k表示。
- 每个群集的平均维数,以L表示。
输出 –
- 确定了群集,并确定了此类群集的尺寸。