📜  数据分析模型构建

📅  最后修改于: 2021-08-27 17:41:05             🧑  作者: Mango

先决条件–数据分析的生命周期阶段

建筑模型 :
在此阶段,数据科学团队需要开发用于培训,测试和生产目的的数据集。这些数据集使数据科学家能够开发分析方法并进行训练,同时保留一些数据以测试模型。

团队开发用于测试,培训和生产目的的数据集。此外,在此阶段,团队根据在模型计划阶段完成的工作来构建和执行模型。该团队还考虑了其现有工具是否足以运行模型,或者是否需要更健壮的环境来执行模型和工作流(示例-快速硬件和并行处理)。

免费或开源工具:

Rand PL/R, Octave, WEKA, Python 

商业工具–

Matlab, STASTICA 

模型构建阶段的常用工具:

R和PL / R:
它们在模型规划阶段就已经进行了描述,PL / R是带有R的PostgreSQL的过程语言。使用这种方法意味着可以在数据库中执行R命令。

八度:
它是用于计算建模的免费软件编程语言,具有Matlab的某些功能。由于Octave是免费提供的,因此在大型大学中教授机器学习时会使用Octave。

WEKA:
它是带有分析工作台的免费数据挖掘软件包。 WAKA中创建的功能可以在Java代码中执行。

Python :
它是一种编程语言,提供了用于机器学习和分析的工具包,例如scikit-learn,NumPy,scipy,Pandas,以及使用matplotlib进行相关的数据可视化。

SQL:
数据库实现(例如MADlib)中的SQL提供了内存桌面分析工具的替代方法。

MADlib:
它为PostgreSQL或Greenplum提供了一个开放源代码的机器学习算法库,该算法可以在数据库中执行。模型构建的生命周期–

  • 选择变量
  • 余额数据
  • 建立模型
  • 证实
  • 部署
  • 维持
  • 定义成功
  • 探索数据
  • 条件数据

数据探查用于找出数据要点,并开发对其质量,数量和特征的第一步评估。可视化技术也可以应用。但是,在具有许多输入变量的高维空间中,这可能是一项艰巨的任务。在数据条件中,我们对功能数据进行分组,然后在完成重缩放后将这些功能数据应用于建模技术,在某些情况下,如果耦合了变量,则重缩放是一个问题。可变截面对于开发质量模型非常重要。

此过程与隐式模型有关,因为它用于配置在正在进行的模型开发中应使用哪种变量组合。数据平衡是将数据划分为适当的子集,以进行训练,测试和验证。模型构建应着眼于所需的算法。最著名的技术是符号回归,也可以使用其他技术。

模型验证对于在使用之前建立信任感非常重要。好的模型的定义包括健壮性和明确定义的准确性。因此,可信的准确模型也有潜在的财务和物理危险,但是可信的度量对于符号回归和堆叠分析网络非常重要。