毫升 | DBSCAN 可达性和连通性
先决条件:机器学习中的DBSCAN 聚类
基于密度的聚类算法在基于密度寻找非线性形状结构方面发挥了至关重要的作用。基于密度的噪声应用空间聚类 (DBSCAN) 是最广泛使用的基于密度的算法。它使用密度可达性和密度连通性的概念。
考虑使用 DBSCAN 聚类对某个空间中的一组点进行聚类。设ε是一个邻里相对于一些点和核心对象半径是它的ε邻域至少包含MinPts对象的数目的对象。
可达性——
- 直接密度可达:
如果 q 在 p 的 ε-邻域内并且 p 是核心对象,则对象(或实例)q 是从对象 p 直接密度可达的。这里直接密度可达性不是对称的。对象 p 不能从对象 q 直接密度可达,因为 q 不是核心对象。
- 密度可达:
对象q是密度可达由对WRTε和MinPts,如果有对象Q 1,Q 2 ...,Q n的链,其中q 1 = P,Q n为q使得数q i + 1是直接密度-从q个可达我WRTε和MinPts对于所有1 <= I <= N
这里密度可达性不是对称的。由于q不是核心点,因此 q n-1不是从 q 直接密度可达的,所以对象 p 不是从对象 q 密度可达的。
连通性——
- 密度连接:对象q是密度连接到检体P WRTε和MinPts,如果有一个对象o,使得两个p和q是密度可达选自O WRTε和MinPts。
这里密度连通性是对称的。如果对象 q 与对象 p 密度连接,则对象 p 也与对象 q 密度连接。
基于以上两个概念可达性和连通性,我们可以定义集群和噪声点。
簇:
甲丛集C WRTε和MinPts是d的非空子集(全部组对象或实例)满足-
- 极大性:对于所有对象P,Q如果pεC和如果q是密度可达由对WRTε和MinPts则qεC.
- 连接性:对于所有对象P,QεC,ρ是密度连接到q,反之亦然WRTε和MinPts。
噪音:
不能从至少一个核心对象直接达到密度的对象称为噪声点。