📜  大数据分析-方法论

📅  最后修改于: 2020-12-02 06:37:03             🧑  作者: Mango


在方法论上,大数据分析与实验设计的传统统计方法明显不同。分析从数据开始。通常,我们以解释响应的方式对数据建模。该方法的目的是预测响应行为或了解输入变量与响应之间的关系。通常,在统计实验设计中,开发实验并作为结果检索数据。这允许以统计模型可以使用的方式生成数据,其中某些假设成立,例如独立性,正态性和随机性。

在大数据分析中,我们将获得数据。我们无法设计满足我们最喜欢的统计模型的实验。在分析的大规模应用中,仅需要清理数据就需要大量工作(通常需要80%的工作量),因此机器学习模型可以使用它。

在实际的大型应用程序中,我们没有遵循的独特方法。通常,一旦定义了业务问题,就需要研究阶段来设计要使用的方法。但是,一般性准则值得一提,并且适用于几乎所有问题。

大数据分析中最重要的任务之一是统计建模,这意味着有监督和无监督的分类或回归问题。一旦数据经过清洗和预处理(可用于建模),则应谨慎评估具有合理损失指标的不同模型,然后在实施模型后,应报告进一步的评估和结果。预测建模中的一个常见陷阱是仅实现模型而从不衡量其性能。