测量数据挖掘中的聚类质量
集群是同一组内彼此相似的数据对象的集合。集群的数据对象与其他组或集群的数据对象不同。
聚类方法:
1.分区方法:分区方法构造各种分区,然后通过一些标准来评估它们,例如,最小化平方误差之和。它采用排他性集群分离(每个对象恰好属于一个组)并使用迭代重定位技术通过将对象从一组移动到另一组来改进分区。它使用贪婪方法和局部最优方法。它在中小型数据库中查找具有球形形状的集群。
分区方法:
- k-均值
- k-中心点
- 娇韵诗
2.基于密度的方法:这种方法基于连通性和密度函数。它将对象集划分为多个互斥的集群或集群的层次结构。基于密度的方法:
- DBSACN
- 光学
3.基于网格的方法:这种方法将对象量化为有限数量的单元,这些单元形成网格结构。处理时间快且独立于多个数据对象。基于网格的聚类方法是解决空间数据挖掘问题的有效方法。
基于网格的方法:
- 刺
- 波群
- 集团
4.分层方法:这通过使用一些措施来创建数据对象的分层分解。分层方法:
- 戴安娜
- 艾格尼丝
- 桦木
- 喀麦隆
聚类质量度量:
如果集群中的所有数据对象都高度相似,则集群具有高质量。在大多数情况下,我们可以使用 Dissimilarity/Similarity 度量来衡量聚类的质量。但是,如果集群相似,还有一些其他方法可以衡量良好集群的质量。
1. Dissimilarity/Similarity metric:聚类之间的相似度可以用一个距离函数来表示,用d(i, j)来表示。对于各种数据类型和数据变量,距离函数是不同的。距离函数度量对于连续值变量、分类变量和向量变量是不同的。对于不同类型的数据,距离函数可以表示为欧几里得距离、马氏距离和余弦距离。
2 .聚类完整性:聚类完整性是良好聚类的基本参数,如果任何两个数据对象具有相似的特征,则根据基本事实将它们分配到聚类的同一类别。如果对象属于同一类别,则集群完整性很高。
让我们考虑聚类 C1,它包含子聚类 s1 和 s2,其中 s1 和 s2 聚类的成员根据基本事实属于同一类别。让我们考虑另一个集群 C2,它与 C1 相同,但现在 s1 和 s2 合并到一个集群中。然后,我们定义聚类质量度量 Q,根据聚类完整性 C2,与 C1 相比,将具有更高的聚类质量,即 Q(C2, Cg ) > Q(C1, Cg )。
3. Ragbag:在某些情况下,可能存在一些类别,其中这些类别的对象无法与其他对象合并。然后通过 Rag Bag 方法测量这些聚类类别的质量。根据碎布袋法,我们应该将异类对象归入碎布袋类。
让我们考虑一个聚类 C1 和一个聚类 C ∈ C1,使得 C 中的所有对象都属于聚类 C1 的同一类别,根据基本事实,除了对象 o。考虑一个与 C1 相同的聚类 C2,除了将 o 分配给包含不同类别对象的聚类 D。根据基本事实,这种情况是嘈杂的,聚类的质量是使用破布袋标准来衡量的。我们定义了聚类质量度量 Q,并且根据 rag bag 方法标准 C2,与 C1 相比,将具有更高的聚类质量,即 Q(C2, Cg)>Q(C1, Cg)。
4.小簇保留:如果将一个小类聚类进一步拆分成小块,那么这些小块对整个聚类就成为噪声,因此很难从聚类中识别出那个小类。小集群保留标准状态将一个小类别分成几部分是不可取的,它进一步降低了集群的质量,因为集群的部分是独特的。假设聚类 C1 已分成三个聚类,C11 = {d1, . . . , dn}, C12 = {dn+1}, C13 = {dn+2}。
让聚类 C2 也分裂成三个聚类,即 C1 = {d1, . . . , dn−1}, C2 = {dn}, C3 = {dn+1,dn+2}。由于 C1 拆分对象的小类别,C2 拆分大类别,根据上述规则,聚类质量度量 Q 应该给 C2 更高的分数,即 Q(C2, Cg ) > Q(C1, CG)。