毫升 |集群间和集群内距离
聚类分析 -
聚类过程的目的是发现数据属性之间的整体分布模式和有趣的相关性。将一组对象分组的任务是使同一组中的对象彼此之间比其他组中的对象更相似。聚类分析本身不是一种特定的算法,而是要解决的一般任务。它可以通过各种算法来实现,这些算法在理解集群的构成以及如何有效地找到它们方面存在显着差异。集群的流行概念包括集群成员之间距离较小的组、数据空间的密集区域、间隔或特定的统计分布。
在这里,我们将讨论不同簇的对象和相同簇的对象之间的距离。我们有两种类型的距离 - Intercluster Distance和Intracluster Distance 。
设S和T是使用分区 U 形成的簇d(x, y)
是分别属于 S 和 T 的两个对象 x 和 y 之间的距离。 d(x, y)
是使用众所周知的距离计算方法计算的,例如欧几里得、曼哈顿和切比雪夫。 |S|和|T|分别是簇 S 和 T 中的对象数。
交互距离:
簇间距离是属于两个不同簇的两个对象之间的距离。它有5种类型——
- 单链接距离:单链接距离是属于两个不同集群的两个对象之间的最近距离,定义为:
- 完整链接距离:完整链接距离是属于两个不同集群的两个最远对象之间的距离,定义为:
- 平均链接距离:平均链接距离是属于两个不同集群的所有对象之间的平均距离,定义为:
- 质心链接距离:质心链接距离分别是两个簇 S 和 T 的中心 vs 和 vt 之间的距离,定义为 -
在哪里, - 平均质心链接距离:平均质心链接距离是集群中心与属于不同集群的所有对象之间的距离,定义为 -
客内距离:
簇内距离是属于同一簇的两个对象之间的距离。它有 3 种类型——
- 完整直径距离:完整直径距离是属于同一簇的两个最远物体之间的距离,定义为:
- 平均直径距离:平均直径距离是属于同一簇的所有对象之间的平均距离,定义为:
- 质心直径距离:质心直径距离是所有对象与 s 的簇中心之间的两倍平均距离,定义为 -
在哪里,
笔记:
如果一个聚类算法使聚类使得不同簇之间的簇间距离更大,同一簇的簇内距离更小,那么我们可以说这是一个很好的聚类算法。
这里图 3 中的聚类算法优于图 2和图 1,因为图 3 中的集群间距离更大,集群内距离更小。
参考: https://en.wikipedia.org/wiki/Hierarchical_clustering