什么是数据挖掘中的预测?
为了找到数值输出,使用了预测。训练数据集包含输入和数字输出值。根据训练数据集,算法生成模型或预测器。当提供新数据时,模型应该找到一个数字输出。这种方法与分类不同,没有类标签。模型预测连续值函数或有序值。
在大多数情况下,回归用于进行预测。例如:根据房间数量、总面积等事实预测房屋的价值。
考虑以下场景:营销经理需要预测特定消费者在销售期间将花费多少。在这种情况下,我们会费心去预测一个数值。在这种情况下,将构建一个预测连续或有序价值函数的模型或预测器。
预测问题:
为预测准备数据是最紧迫的挑战。数据准备涉及以下活动:
- 数据清洗:清洗数据包括减少噪音和处理缺失值。平滑技术去除噪声,缺失值问题通过用该特征最常出现的值替换缺失值来解决。
- 相关性分析:不相关的属性也可能存在于数据库中。相关性分析方法用于确定两个属性是否相连。
- 数据转换和缩减:下面列出的任何方法都可用于转换数据。
- 规范化:规范化用于转换数据。规范化是对给定属性的所有值进行缩放的过程,以使它们位于一个狭窄的范围内。当在学习过程中使用需要测量的神经网络或方法时,会执行归一化。
- 泛化:数据也可以通过应用更高的思想来修改。为此,我们可以使用层次结构的概念。
其他数据缩减技术包括小波处理、分箱、直方图分析和聚类。