📜  数据挖掘中的聚类

📅  最后修改于: 2021-09-09 10:42:14             🧑  作者: Mango

聚类:
将一组抽象对象变成相似对象类的过程称为聚类。

要记住的要点:
一组被视为一组数据对象

  • 在聚类分析的过程中,第一步是借助数据的相似性将数据集划分成组,然后将组分配到各自的标签。
  • 聚类过度分类的最大优点是它可以适应所做的变化,并有助于挑选出区分不同群体的有用特征。

聚类分析的应用:

  • 它被广泛应用于图像处理、数据分析和模式识别等许多应用中。
  • 它帮助营销人员在他们的客户群中找到不同的群体,他们可以通过使用购买模式来描述他们的客户群体。
  • 它可用于生物学领域,通过推导动植物分类法,识别具有相同功能的基因。
  • 它还通过对网络上的文档进行分类来帮助发现信息。

聚类方法:
它可以根据以下类别进行分类。

  1. 基于模型的方法
  2. 层次法
  3. 基于约束的方法
  4. 基于网格的方法
  5. 分区方法
  6. 基于密度的方法

数据挖掘中聚类的要求:
以下是为什么聚类在数据挖掘中很重要的一些要点。

  • 可扩展性——
    我们需要高度可扩展的聚类算法来处理大型数据库。
  • 处理不同类型属性的能力——
    算法应该能够处理诸如分类数据、数值数据和二进制数据之类的数据类型。
  • 发现具有属性形状的簇——
    该算法应该能够检测任意形状的集群,并且不应受限于距离度量。
  • 可解释性——
    结果应该是全面的、可用的和可解释的。
  • 高维——
    该算法应该能够处理高维空间,而不仅仅是处理低维数据。