📜  数据分析中预测集群的不同阶段

📅  最后修改于: 2021-08-27 04:49:06             🧑  作者: Mango

在本文中,我们将详细讨论数据分析中预测群集的不同阶段。

计划聚类的三个阶段:

  1. 初始化阶段
  2. 迭代阶段
  3. 精炼阶段

这些解释如下。

1.初始化阶段:
该阶段包括选择超集的两个步骤。

  • 第一步,它会随机抽取一个样本数据点,其大小与用户希望产生的簇数成正比,表示为:
    S= random sample size A.k,

    其中A是常数,k表示簇数。

  • 完成使用贪婪方法的第二步,以获取点Bk的最终集合,其中B是一个小的常数。

该组称为M,在下一阶段将采用爬山技术。

  • 随机选取一组样本数据点。
  • 拾取一组数据点,该数据点可能是集群的medoids。

2.迭代阶段:
从初始化阶段开始,我们获得了一组数据点,这些数据点应包含类固醇。在此阶段,我们将从M中找到最佳的类固醇。随机选取M当前的点集,并根据需要从M中的其他点恢复“坏”类固醇,以提高群集质量。将新近形成的有意义的类固醇集合指定为M best。

对于类固醇,将按照以下步骤进行。

  • 确定与类固醇相关的尺寸。
  • 将数据分配给类固醇。
  • 测量形成的簇。
  • 确定不良的类固醇,然后尝试恢复不良的类固醇的结果。
  • 重复上述过程,直到获得满意的结果。

3.优化阶段-处理异常值:

  • 该算法的最后一步是优化阶段。该阶段包括形成的簇的更好质量。
  • 在迭代阶段形成的簇C1,C2,C3,…,Ck是该阶段的馈送。
  • 将本机数据集传递一次或多次,以提高群集的质量。
  • 处理在迭代阶段找到的维集Di,并为每个聚类集Ci计算新的维集。
  • 一旦为聚类计算了新的维数,就将这些点重新分配给与这些新的维数集相对应的medoids。
  • 离群值是在数据的最后一次传递中确定的。

主要缺点:

  • 该算法需要每个聚类的平均维数作为输入框架。预计聚类的性能对其输入框架的价值高度敏感。
  • 如果错误地估计了平均维数,则预测聚类的表现将大大恶化。