📜  Weka-预处理数据

📅  最后修改于: 2020-11-28 14:20:56             🧑  作者: Mango


从该字段收集的数据包含许多不想要的东西,从而导致错误的分析。例如,数据可能包含空字段,它可能包含与当前分析无关的列,依此类推。因此,必须对数据进行预处理才能满足您要查找的分析类型的要求。这是在预处理模块中完成的。

为了演示预处理中的可用功能,我们将使用安装中提供的Weather数据库。

使用“预处理”标签下的“打开文件…”选项,选择weather-nominal.arff文件。

名义天气

当您打开文件时,您的屏幕如下所示:

Weka探索

该屏幕告诉我们有关已加载数据的几件事,本章将进一步讨论。

了解数据

让我们首先查看突出显示的“当前关系”子窗口。它显示当前正在加载的数据库的名称。您可以从此子窗口中推断出两个点-

  • 有14个实例-表中的行数。

  • 该表包含5个属性-字段,将在接下来的部分中进行讨论。

在左侧,请注意“属性”子窗口,其中显示了数据库中的各个字段。

Weka属性

天气数据库包含五个字段-前景,温度,湿度,大风和运动。当您通过单击从列表中选择一个属性时,该属性本身的更多详细信息将显示在右侧。

让我们首先选择温度属性。当您单击它时,您将看到以下屏幕-

温度属性

在“选定属性”子窗口中,可以观察到以下内容-

  • 显示属性的名称和类型。

  • 温度属性的类型为Nominal

  • 缺失值的数量为零。

  • 有三个不同的值,没有唯一的值。

  • 该信息下方的表格显示了该字段的标称值,包括热,中,冷。

  • 它还以百分比形式显示每个标称值的数量和重量。

在窗口底部,您可以看到值的直观表示。

如果单击全部可视化按钮,则可以在一个窗口中查看所有功能,如下所示-

可视化所有

删除属性

很多时候,要用于模型构建的数据带有许多不相关的字段。例如,客户数据库可以包含他的手机号码,该手机号码与分析他的信用等级有关。

删除属性

要删除属性,请选择它们,然后单击底部的“删除”按钮。

所选属性将从数据库中删除。完全预处理数据后,可以将其保存以用于模型构建。

接下来,您将学习通过对数据应用过滤器来预处理数据。

应用过滤器

诸如关联规则挖掘之类的某些机器学习技术需要分类数据。为了说明使用过滤器,我们将使用一个包含两个数值属性气象numeric.arff数据库-温度湿度

我们将通过对原始数据应用过滤器将其转换为名义数据。单击“过滤器”子窗口中的“选择”按钮,然后选择以下过滤器-

weka→过滤器→监督→属性→离散化

Weka离散化

单击“应用”按钮并检查温度和/或湿度属性。您会注意到,它们已从数字类型更改为名义类型。

湿度属性

现在让我们看看另一个过滤器。假设您要选择最佳属性来决定播放。选择并应用以下过滤器-

weka→过滤器→监督→属性→属性选择

您会注意到,它从数据库中删除了温度和湿度属性。

Weka属性选择

对数据的预处理感到满意后,请单击“保存…”按钮保存数据。您将使用此保存的文件进行模型构建。

在下一章中,我们将使用几种预定义的ML算法探索模型的建立。