使用 Weka 进行分层聚类
在本文中,我们将看到如何利用 Weka Explorer 进行层次分析。此示例的示例数据集基于 ARFF 格式的虹膜数据。正如本文所期望的那样,数据已经过适当的预处理。该数据集有 150 次虹膜出现。
聚类: 聚类是将一组抽象对象分成组的方法。需要牢记的要点 一组数据对象可以被视为单个实体。在进行聚类分析时,我们根据数据的相似性将数据集划分为多个组,然后为这些组分配标签。
层次聚类: 分层聚类,也称为分层聚类分析或 HCA,是一种无监督聚类方法,包括按自上而下的顺序形成组。
例如,在我们的硬盘驱动器上,所有文件和文件夹都按层次结构组织。
该程序根据对象的相似性将对象划分为簇。端点是集群或组的集合,每个集群或组都与其他集群或组不同,但每个集群内的项目大体相似。
应遵循的步骤:
第一步:在预处理界面打开Weka explorer,导入相应的数据集;我正在使用 iris.arff 数据集。
第 2 步:要执行聚类,请转到资源管理器的“聚类”选项卡并选择选择按钮。作为此步骤的结果,将显示可用聚类算法的下拉列表;选择分层算法。
第 3 步:然后按选择图标右侧的文本按钮以调出屏幕截图中看到的弹出窗口。在这个窗口中,我们输入三个作为簇数,并保留种子值。种子值用于生成一个随机数,用于在内部相互分配集群实例。
第 4 步:已选择其中一个选项。在我们执行集群方法之前,我们需要确保它们处于“集群模式”面板中。选择使用训练集的选项,然后点击“开始”按钮。下面的屏幕截图描述了该过程和结果窗口。
第 5 步:结果窗口显示每个集群的质心,以及分配给每个集群的实例数量和比例的数据。均值向量用于表示每个集群质心。可以使用该集群来描述集群。
第 6 步:可视化每个集群的质量是掌握它们的另一种方法。右键单击结果上的结果集以执行此操作。从列表列中选择可视化集群分配。