集群介绍
它基本上是一种无监督的学习方法。无监督学习方法是一种方法,其中我们从包含输入数据而没有标记响应的数据集中获取引用。通常,它用作查找有意义的结构,解释性的基础过程,生成特征以及一组示例中固有的分组的过程。
聚类是将总体或数据点划分为多个组的任务,以使同一组中的数据点与同一组中的其他数据点更相似,而与其他组中的数据点不相似。它基本上是根据对象之间的相似性和相似性来收集的。
例如-下表中聚集在一起的数据点可以分为一组。我们可以区分聚类,并且可以确定下图中有3个聚类。
簇不必是球形的。如 :
DBSCAN:带噪声的应用程序的基于密度的空间聚类
通过使用数据点位于聚类中心给定约束范围内的基本概念对这些数据点进行聚类。各种距离方法和技术被用于离群值的计算。
为什么要聚类?
聚类非常重要,因为它决定了存在的未标记数据之间的内在分组。没有良好聚类的标准。这取决于用户,他们可以使用什么标准来满足他们的需求。例如,我们可能有兴趣寻找同类组的代表(数据约简),寻找“自然簇”并描述其未知属性(“自然”数据类型),寻找有用和合适的分组(“有用”数据类)或查找异常数据对象(异常检测)。该算法必须做出一些假设,这些假设构成点的相似性,并且每个假设都构成不同且同等有效的聚类。
聚类方法:
- 基于密度的方法:这些方法将簇视为与空间的较低密集区域有些相似且不同的密集区域。这些方法具有良好的准确性和合并两个聚类的能力,例如DBSCAN(带有噪声的应用程序的基于密度的空间聚类) , OPTICS(识别聚类结构的订购点)等。
- 基于层次的方法:这种方法中形成的簇基于层次结构形成树型结构。使用先前形成的集群形成新的集群。它分为两类
- 集聚(自下而上的方法)
- 分裂(自上而下的方法)
示例CURE(使用代表进行聚类),BIRCH(平衡迭代约简聚类和使用层次结构)等。
- 分区方法:这些方法将对象划分为k个群集,每个分区形成一个群集。此方法用于优化客观标准相似性函数,例如当距离是主要参数时,例如K均值,CLARANS(基于随机搜索聚类大型应用程序)等。
- 基于网格的方法:在这种方法中,数据空间被公式化为形成网格状结构的有限数量的单元格。在这些网格上完成的所有聚类操作都是快速的,并且与数据对象的数量无关,例如STING(统计信息网格),波群,CLIQUE(探索中的聚类)等。
聚类算法:
K-means聚类算法–它是解决聚类问题的最简单的无监督学习算法。K-means算法将n个观测值划分为k个聚类,其中每个观测值均属于该聚类,并且最接近的均值用作该聚类的原型。
聚类在不同领域的应用
- 营销:可用于表征和发现客户群以进行营销。
- 生物学:可用于在不同种类的动植物之间进行分类。
- 图书馆:用于根据主题和信息将不同的书籍聚类。
- 保险:用于确认客户,他们的保单并识别欺诈行为。
城市规划:用于规划房屋,并根据其地理位置和其他因素研究其价值。
地震研究:通过了解受地震影响的地区,我们可以确定危险区域。
参考 :
维基
层次聚类
伊贾奇
亚光
analyticsvidhya
知识