DBSCAN代表具有噪声的基于密度的应用程序空间聚类。
它是一种流行的无监督学习方法,用于模型构建和机器学习算法。它是一种用于将高密度簇与低密度簇分离的聚类方法。它将数据点分成许多组,以便位于同一组中的点将具有相同的属性。它由 Martin Ester、Hans-Peter Kriegel、Jorg Sander 和 Xiaowei Xu 于 1996 年提出。
DBSCAN 设计用于可以加速区域查询的数据库。它不能对密度差异很大的数据集进行聚类。
特征
- 它识别数据集中任何形状的簇,这意味着它可以检测任意形状的簇。
- 它基于集群和噪声的直观概念。
- 它在检测数据集中的异常值方面非常稳健
- 它只需要两个对数据集中点的出现顺序非常不敏感的点
优点
- 不需要指定数据集中数据簇的数量。
- 即使该簇被任何其他簇包围,它也可以找到任何形状的簇。
- 它可以很容易地找到数据集中的异常值。
- 它对噪音不太敏感,这意味着它可以容忍噪音。
- 它是继 K-means 之后第二个最常用的聚类方法。
缺点
- 结果的质量取决于 regionQuery函数使用的距离度量。
- 边界点可能会根据处理顺序进入任何集群,因此它不是完全确定的。
- 当最近邻的计算成本很高时,它可能会很昂贵。
- 对于更高维度,它的执行速度可能会很慢。
- 局部密度变化的适应性较差。