SEMMA模型
SEMMA 是构建机器学习模型的顺序方法,它包含在“SAS Enterprise Miner”中,SAS Institute Inc. 是最大的商业统计和商业智能软件生产商之一的产品。然而,顺序步骤指导机器学习系统的开发。让我们看一下五个连续的步骤,以便更好地理解它。
示例:这一步是关于从为构建模型提供的大型数据集中选择正确体积数据集的子集。它将帮助我们非常有效地构建模型。基本上在这一步中,我们确定自变量(结果)和因变量(因素)。选定的数据子集实际上应该是最初收集的整个数据集的表示,这意味着它应该包含足够的信息来检索。数据也分为训练和验证目的。
探索:在此阶段,开展活动以了解数据差距和彼此之间的关系。两个关键活动是单变量和多变量分析。在单变量分析中,每个变量单独查看以了解其分布,而在多变量分析中,探索每个变量之间的关系。数据可视化被大量用于帮助更好地理解数据。在这一步中,我们对影响我们结果的所有因素进行分析。
修改:在此阶段,在需要时清理变量。通过根据需求将业务逻辑应用于现有功能来创建新的派生功能。如有必要,将转换变量。这个阶段的结果是一个干净的数据集,可以传递给机器学习算法来构建模型。在这一步中,我们检查数据是否完全转换。如果我们需要转换数据,我们使用标签编码器或标签二值化器。
模型:在此阶段,将各种建模或数据挖掘技术应用于预处理数据,以根据预期结果对其性能进行基准测试。在这一步中,我们执行所有数学运算,这也使我们的结果更加精确和准确。
评估:这是最后一个阶段。此处根据测试数据(未用于模型训练)评估模型性能,以确保可靠性和业务实用性。最后,在这一步中,我们执行数据的评估和解释。我们将我们的模型结果与实际结果和我们模型限制的分析进行比较,并尝试克服该限制。