如何在 Weka 中使用分类机器学习算法?
Weka 工具是由怀卡托大学的学生开发的开源工具,代表怀卡托知识分析环境,具有所有内置的机器学习算法。它用于使用数据挖掘技术解决现实生活中的问题。该工具是使用Java编程语言开发的,因此它与平台无关。
该工具本身在应用程序的数据文件中包含一些数据集,我们可以用它们来实现我们的算法。我们将使用的数据集是Breast-cancer.arff 。分类可以由预测连续值函数的预测模型定义,而分类模型预测分类类标记。
在本文中,我们将使用 WEKA 工具学习数据集上的分类实现。为此,我们将使用两种不同的分类器。
零件分类器
本次实验涉及的步骤是:
- 最初,我们必须使用选择文件选项在 weka 工具中加载所需的数据集。
- 现在我们必须转到左上角的分类选项卡,然后单击选择按钮并选择其中的零件算法。
- 现在要更改参数,请单击右侧的选择按钮,我们接受本示例中的默认值。
- 在主面板左侧的“测试”选项下。作为我们的评估方法,我们选择 10 折交叉验证。由于我们没有单独的测试数据集,因此需要很好地了解模型的准确性。
- 现在点击开始生成分类器模型。将显示以下输出:
值得注意的是,该模型的分类准确率约为 71%。这表明我们将能够找到更多的工作。 (无论是在预处理中还是在现有分类参数的选择中)
OneR 分类器
本次实验涉及的步骤是:
- 最初,我们必须使用选择文件选项在 weka 工具中加载所需的数据集。
- 现在我们必须转到左上角的分类选项卡,然后单击选择按钮并选择其中的 oneR 算法。
- 现在要更改参数,请单击右侧的选择按钮,我们接受本示例中的默认值。
- 在主面板左侧的“测试”选项下。作为我们的评估方法,我们选择 10 折交叉验证。由于我们没有单独的测试数据集,因此需要很好地了解模型的准确性。
- 现在点击开始生成分类器模型。下面是生成的输出:
请注意,模型的分类准确率仅为 65% 左右。这表明我们将能够找到更多的工作。 (无论是在预处理中还是在现有分类参数的选择中)