Weka-预处理数据 - 芒果文档

📌 相关文章

📜 Weka-预处理数据

📅 最后修改于: 2020-11-28 14:20:56 🧑 作者: Mango

从该字段收集的数据包含许多不想要的东西，从而导致错误的分析。例如，数据可能包含空字段，它可能包含与当前分析无关的列，依此类推。因此，必须对数据进行预处理才能满足您要查找的分析类型的要求。这是在预处理模块中完成的。

为了演示预处理中的可用功能，我们将使用安装中提供的Weather数据库。

使用“预处理”标签下的“打开文件…”选项，选择weather-nominal.arff文件。

名义天气

当您打开文件时，您的屏幕如下所示：

Weka探索

该屏幕告诉我们有关已加载数据的几件事，本章将进一步讨论。

了解数据

让我们首先查看突出显示的“当前关系”子窗口。它显示当前正在加载的数据库的名称。您可以从此子窗口中推断出两个点-

有14个实例-表中的行数。
该表包含5个属性-字段，将在接下来的部分中进行讨论。

在左侧，请注意“属性”子窗口，其中显示了数据库中的各个字段。

Weka属性

天气数据库包含五个字段-前景，温度，湿度，大风和运动。当您通过单击从列表中选择一个属性时，该属性本身的更多详细信息将显示在右侧。

让我们首先选择温度属性。当您单击它时，您将看到以下屏幕-

温度属性

在“选定属性”子窗口中，可以观察到以下内容-

显示属性的名称和类型。
温度属性的类型为Nominal 。
缺失值的数量为零。
有三个不同的值，没有唯一的值。
该信息下方的表格显示了该字段的标称值，包括热，中，冷。
它还以百分比形式显示每个标称值的数量和重量。

在窗口底部，您可以看到类值的直观表示。

如果单击全部可视化按钮，则可以在一个窗口中查看所有功能，如下所示-

可视化所有

删除属性

很多时候，要用于模型构建的数据带有许多不相关的字段。例如，客户数据库可以包含他的手机号码，该手机号码与分析他的信用等级有关。

删除属性

要删除属性，请选择它们，然后单击底部的“删除”按钮。

所选属性将从数据库中删除。完全预处理数据后，可以将其保存以用于模型构建。

接下来，您将学习通过对数据应用过滤器来预处理数据。

应用过滤器

诸如关联规则挖掘之类的某些机器学习技术需要分类数据。为了说明使用过滤器，我们将使用一个包含两个数值属性气象numeric.arff数据库-温度和湿度。

我们将通过对原始数据应用过滤器将其转换为名义数据。单击“过滤器”子窗口中的“选择”按钮，然后选择以下过滤器-

weka→过滤器→监督→属性→离散化

Weka离散化

单击“应用”按钮并检查温度和/或湿度属性。您会注意到，它们已从数字类型更改为名义类型。

湿度属性

现在让我们看看另一个过滤器。假设您要选择最佳属性来决定播放。选择并应用以下过滤器-

weka→过滤器→监督→属性→属性选择

您会注意到，它从数据库中删除了温度和湿度属性。

Weka属性选择

对数据的预处理感到满意后，请单击“保存…”按钮保存数据。您将使用此保存的文件进行模型构建。

在下一章中，我们将使用几种预定义的ML算法探索模型的建立。