在本文中,我们将详细讨论数据分析中投影聚类的不同阶段。
投影聚类的三个阶段:
- 初始化阶段
- 迭代阶段
- 细化阶段
这些解释如下。
1. 初始化阶段:
该阶段包括选择超集的两个步骤。
- 在第一步中,它选取一个随机样本数据点,其大小与用户希望生成的集群数量成正比,给出如下:
S= random sample size A.k,
其中 A 是一个常数,k 代表簇的数量。
- 使用贪婪方法的第二步是完成获得最终的一组点 Bk,其中 B 是一个小常数。
这组被指定为 M,其中在下一阶段使用爬山技术。
- 随机选取一组数据点样本。
- 选取一组数据点,这可能是集群的中心点。
2. 迭代阶段:
从初始化阶段,我们得到了一组数据点,这些数据点应该包含中心点。这个阶段,我们会从 M 中找到最好的 medoids。随机选取 M current 的一组点,如果需要提升集群质量,从 M 中的其他点恢复“坏”的 medoids。新形成的有意义的中心点集被指定为 M 最好的。
对于medoids,以下将进行如下操作。
- 确定与中心点相关的维度。
- 将数据点分配给中心点。
- 测量形成的簇。
- 识别出不良medoid ,并尝试恢复不良medoid 的结果。
- 重复上述过程,直到我们得到满意的结果。
3. 细化阶段 – 处理异常值:
- 该算法的最后一步是细化阶段。这个阶段包括形成的簇质量更好。
- 在迭代阶段形成的簇 C1,C2,C3,….,Ck 是这个阶段的馈入。
- 本地数据集被传递一次或多次以提高集群的质量。
- 在迭代阶段找到的维度集 Di 被处理掉,并为每个集群集 Ci 计算新的维度集。
- 一旦为集群计算了新维度,则将点重新分配给与这些新维度集相比的中心点。
- 离群值是在最后一次通过数据时确定的。
主要缺点:
- 该算法需要每个集群的平均维数作为输入框架。投影聚类的性能对其输入框架的价值高度敏感。
- 如果错误地估计了平均维数,则投影聚类的呈现会显着恶化。