📅  最后修改于: 2020-11-28 14:21:59             🧑  作者: Mango
聚类算法在整个数据集中查找相似实例的组。 WEKA支持多种聚类算法,例如EM,FilteredClusterer,HierarchicalClusterer,SimpleKMeans等。您应该完全理解这些算法以充分利用WEKA功能。
与分类一样,WEKA允许您以图形方式可视化检测到的群集。为了演示聚类,我们将使用提供的虹膜数据库。数据集包含三个类别,每个类别有50个实例。每个类别都指一种虹膜植物。
在WEKA资源管理器中,选择“预处理”选项卡。单击“打开文件…”选项,然后在文件选择对话框中选择iris.arff文件。加载数据时,屏幕如下图所示-
您可以观察到有150个实例和5个属性。属性名称列出为sepallength , sepalwidth ,花瓣长度,花瓣宽度和类。前四个属性是数字类型,而类是具有3个不同值的名义类型。检查每个属性以了解数据库的功能。我们不会对此数据进行任何预处理,并且会直接进行模型构建。
单击Cluster TAB,将聚类算法应用于我们加载的数据。单击选择按钮。您将看到以下屏幕-
现在,选择EM作为聚类算法。在“群集模式”子窗口中,选择“群集的类评估”选项,如下面的屏幕快照所示-
单击开始按钮以处理数据。一段时间后,结果将显示在屏幕上。
接下来,让我们研究结果。
数据处理的输出显示在下面的屏幕中-
在输出屏幕上,您可以观察到-
数据库中检测到5个群集实例。
聚类0代表setosa,聚类1代表virginica,聚类2代表杂色,而最后两个聚类没有任何关联的类。
如果向上滚动输出窗口,还将看到一些统计信息,这些统计信息提供了各种检测到的簇中每个属性的平均值和标准偏差。这显示在下面给出的屏幕截图中-
接下来,我们将看集群的视觉表示。
要可视化群集,请在“结果”列表中的EM结果上单击鼠标右键。您将看到以下选项-
选择“可视化集群分配” 。您将看到以下输出-
与分类一样,您会注意到正确识别的实例和错误识别的实例之间的区别。您可以通过更改X和Y轴来分析结果,以进行操作。您可以像分类一样使用抖动来找出正确识别的实例的集中程度。可视化图中的操作与您在分类情况下研究的操作类似。
为了演示WEKA的功能,现在让我们研究另一种聚类算法的应用。在WEKA资源管理器中,选择HierarchicalClusterer作为ML算法,如下面的屏幕截图所示-
选择“类”的“群集模式”选择以进行群集评估,然后单击“开始”按钮。您将看到以下输出-
请注意,在“结果”列表中,列出了两个结果:第一个是EM结果,第二个是当前的Hierarchical。同样,您可以将多个ML算法应用于同一数据集,并快速比较它们的结果。
如果检查此算法产生的树,您将看到以下输出-
在下一章中,您将研究ML算法的关联类型。