📜  数据挖掘——聚类分析

📅  最后修改于: 2022-05-13 01:57:01.663000             🧑  作者: Mango

数据挖掘——聚类分析

聚类分析是寻找相似的对象组以形成聚类的过程。它是一种基于无监督机器学习的算法,作用于未标记的数据。一组数据点将共同组成一个集群,其中所有对象都属于同一组。

簇:

通过将相似的对象组合成一个组,将给定的数据分成不同的组。这个组只不过是一个集群。集群只不过是组合在一起的相似数据的集合。

例如,考虑给定一个车辆数据集,其中包含有关汽车、公共汽车、自行车等不同车辆的信息。由于它是无监督学习,因此所有车辆都没有像 Cars、Bikes 等类别标签,所有的数据是组合的,不是结构化的。

现在我们的任务是将未标记的数据转换为标记的数据,并且可以使用集群来完成。

聚类分析的主要思想是通过形成聚类来排列所有数据点,例如包含所有汽车的汽车聚类、包含所有自行车的自行车聚类等。

简单地说,就是对应用于未标记数据的相似对象进行分区。

聚类的属性:

1.集群可扩展性:现在数据量很大,应该处理庞大的数据库。为了处理广泛的数据库,聚类算法应该是可扩展的。如果数据不可扩展,那么数据应该是可扩展的,那么我们就无法得到适当的结果,并会导致错误的结果。

2. 高维:算法应该能够处理高维空间以及小尺寸的数据。

3. 多种数据类型的算法可用性:不同类型的数据可以与聚类算法一起使用。它应该能够处理不同类型的数据,例如离散、分类和基于区间的数据、二进制数据等。

4. 处理非结构化数据:这些可能是一些包含缺失值、嘈杂或错误数据的数据库。如果算法对此类数据敏感,则可能会导致聚类质量不佳。因此,它应该能够处理非结构化数据,通过将数据组织成相似的数据对象组,为数据赋予一些结构。这使得数据专家的工作更容易处理数据和发现新模式。

5. 可解释性:聚类的结果应该是可解释的、可理解的和可用的。可解释性反映了数据被理解的难易程度。

聚类方法:

聚类方法可以分为以下几类:

  • 分区方法
  • 分层法
  • 基于密度的方法
  • 基于网格的方法
  • 基于模型的方法
  • 基于约束的方法

分区方法:用于对数据进行分区以形成集群。如果在数据库的“p”个对象上完成“n”个分区,则每个分区由一个集群表示,并且 n < p。该分区聚类方法需要满足的两个条件是:

  • 一个目标应该只属于一个组。
  • 任何团体都不应该没有一个单一的目的。

在分区方法中,有一种技术称为迭代重定位,这意味着将对象从一组移动到另一组以改善分区

分层方法:在此方法中,创建给定数据对象集的分层分解。我们可以对分层方法进行分类,并根据分层分解的形成方式知道分类的目的。有两种创建层次分解的方法,它们是:

  • 凝聚法:凝聚法也称为自下而上的方法。最初,给定的数据被划分,其中对象形成单独的组。此后,它继续合并彼此接近的对象或组,这意味着它们表现出相似的属性。这个合并过程一直持续到终止条件成立。
  • 分裂方法:分裂方法也称为自顶向下方法。在这种方法中,我们将从同一集群中的数据对象开始。通过不断的迭代将一组单独的集群划分为小集群。迭代一直持续到满足终止条件或直到每个簇包含一个对象。

一旦组被拆分或合并,就永远无法撤消,因为它是一种死板的方法并且不那么灵活。可用于提高数据挖掘中的层次聚类质量的两种方法是:-

  • 在层次聚类的每一次划分中,都应该仔细分析对象之间的联系。
  • 可以使用分层凝聚算法进行分层凝聚的整合。在这种方法中,首先,对象被分组到微集群中。在将数据对象分组为微簇后,对微簇进行宏聚类。

基于密度的方法:基于密度的方法主要关注密度。在这种方法中,只要邻域中的密度超过某个阈值,即对于给定集群中的每个数据点,给定集群将持续增长。给定簇的半径必须至少包含最少数量的点。

基于网格的方法:在基于网格的方法中,使用对象一起形成网格,即将对象空间量化为形成网格结构的有限数量的单元。基于网格的方法的主要优点之一是处理时间快,并且它仅取决于量化空间中每个维度中的单元数。这种方法的处理时间要快得多,因此可以节省时间。

基于模型的方法:在基于模型的方法中,假设所有聚类以找到最适合模型的数据。密度函数的聚类用于定位给定模型的聚类。它反映了数据点的空间分布,还提供了一种基于标准统计数据自动确定聚类数量的方法,同时考虑到异常值或噪声。因此,它产生了强大的聚类方法。

基于约束的方法:基于约束的聚类方法是通过结合应用程序或面向用户的约束来执行的。约束是指用户期望或所需聚类结果的属性。约束为我们提供了一种与聚类过程进行交互的交互方式。约束可以由用户或应用程序要求指定。

聚类分析的应用:

  • 它广泛用于图像处理、数据分析和模式识别。
  • 它可以帮助营销人员在他们的客户群中找到不同的群体,并且他们可以通过使用购买模式来描述他们的客户群体。
  • 它可以用于生物学领域,通过推导动植物分类学,识别具有相同能力的基因。
  • 它还通过对网络上的文档进行分类来帮助发现信息。