聚类:
将一组抽象对象分成相似对象类的过程称为聚类。
要记住的要点:
一组被视为一组数据对象
- 在聚类分析的过程中,第一步是借助数据相似性将数据集划分为组,然后将组分配给它们各自的标签。
- 聚类过度分类的最大优点是,它可以适应所做的更改,并有助于区分出不同组的有用功能。
聚类分析的应用:
- 它广泛用于许多应用程序,例如图像处理,数据分析和模式识别。
- 它可以帮助营销人员在他们的客户群中找到不同的群体,他们可以通过使用购买模式来表征他们的客户群体。
- 通过推导动物和植物分类学,鉴定具有相同功能的基因,可将其用于生物学领域。
- 它还通过对网络上的文档进行分类来帮助发现信息。
聚类方法:
可以根据以下类别进行分类。
- 基于模型的方法
- 继承法
- 基于约束的方法
- 基于网格的方法
- 分割方法
- 基于密度的方法
数据挖掘中的集群要求:
以下是为什么聚类在数据挖掘中很重要的一些观点。
- 可扩展性–
我们需要高度可扩展的群集算法来处理大型数据库。 - 处理不同种类的属性的能力–
算法应该能够处理数据类型,例如分类,数字和二进制数据。 - 发现具有属性形状的集群–
该算法应该能够检测任意形状的聚类,并且不应该局限于距离度量。 - 可解释性–
结果应该是全面的,可用的和可解释的。 - 高维度–
该算法应该能够处理高维空间,而不是仅处理低维数据。