在本文中,我们将详细讨论数据分析中预测群集的不同阶段。
计划聚类的三个阶段:
- 初始化阶段
- 迭代阶段
- 精炼阶段
这些解释如下。
1.初始化阶段:
该阶段包括选择超集的两个步骤。
- 第一步,它会随机抽取一个样本数据点,其大小与用户希望产生的簇数成正比,表示为:
S= random sample size A.k,
其中A是常数,k表示簇数。
- 完成使用贪婪方法的第二步,以获取点Bk的最终集合,其中B是一个小的常数。
该组称为M,在下一阶段将采用爬山技术。
- 随机选取一组样本数据点。
- 拾取一组数据点,该数据点可能是集群的medoids。
2.迭代阶段:
从初始化阶段开始,我们获得了一组数据点,这些数据点应包含类固醇。在此阶段,我们将从M中找到最佳的类固醇。随机选取M当前的点集,并根据需要从M中的其他点恢复“坏”类固醇,以提高群集质量。将新近形成的有意义的类固醇集合指定为M best。
对于类固醇,将按照以下步骤进行。
- 确定与类固醇相关的尺寸。
- 将数据分配给类固醇。
- 测量形成的簇。
- 确定不良的类固醇,然后尝试恢复不良的类固醇的结果。
- 重复上述过程,直到获得满意的结果。
3.优化阶段-处理异常值:
- 该算法的最后一步是优化阶段。该阶段包括形成的簇的更好质量。
- 在迭代阶段形成的簇C1,C2,C3,…,Ck是该阶段的馈送。
- 将本机数据集传递一次或多次,以提高群集的质量。
- 处理在迭代阶段找到的维集Di,并为每个聚类集Ci计算新的维集。
- 一旦为聚类计算了新的维数,就将这些点重新分配给与这些新的维数集相对应的medoids。
- 离群值是在数据的最后一次传递中确定的。
主要缺点:
- 该算法需要每个聚类的平均维数作为输入框架。预计聚类的性能对其输入框架的价值高度敏感。
- 如果错误地估计了平均维数,则预测聚类的表现将大大恶化。