数据科学生命周期
数据科学生命周期围绕使用机器学习和不同的分析策略从信息中产生洞察力和预测,以获得商业企业目标。完整的方法包括数据清洗、准备、建模、模型评估等多个步骤。这是一个漫长的过程,另外可能需要相当多的几个月才能完成。因此,拥有一个通用结构来观察手头的每一个麻烦是非常必要的。解决任何分析问题的全球提到的结构被称为数据挖掘的跨行业标准流程或 CRISP-DM 框架。
让我们了解数据科学的需求是什么?
早期的数据过去要少得多,而且通常以结构良好的形式访问,我们可以轻松轻松地将其保存在 Excel 工作表中,并且在商业智能工具的帮助下,可以有效地处理数据。但是今天我们过去常常处理大量数据,例如每天产生大约 3.0 公担字节的记录,这最终导致记录和数据的爆炸式增长。根据最近的研究,估计在一秒钟内也可以通过一个人创建 1.9 MB 的数据和记录。
因此,对于任何组织来说,处理每秒生成的海量数据都是一个非常大的挑战。为了处理和评估这些数据,我们需要一些非常强大、复杂的算法和技术,这就是数据科学的用武之地。
以下是使用数据科学技术的一些主要动机:
- 它有助于将大量未经处理和非结构化的记录转化为重要的见解。
- 它可以帮助进行独特的预测,例如一系列调查、选举等。
- 它还有助于自动化交通,例如发展自动驾驶汽车,我们可以说这是交通的未来。
- 公司正在转向数据科学并选择这项技术。应对海量数据的亚马逊、Netflix等,都是利用信息科学算法实现更高的消费体验。
数据科学的生命周期
1.业务理解:完整的循环围绕着企业目标。如果您不再有特定问题,您将解决什么问题?由于这将是您分析的最终目标,因此真诚地理解商业企业目标非常重要。只有在理想的感知之后,我们才能设定与企业目标同步的精确评估目标。您需要了解客户是否希望最大限度地减少储蓄损失,或者他们是否更愿意预测商品的价格等。
2、数据理解:企业理解之后,接下来就是数据理解。这包括一系列所有可达的数据。在这里,您需要专心地与商业企业集团合作,因为他们肯定知道存在哪些信息,对于这个商业企业问题应该使用哪些事实,以及不同的信息。此步骤包括描述数据、它们的结构、它们的相关性、它们的记录类型。使用图形图探索信息。基本上,通过简单地探索数据来提取您可以获得的有关信息的任何数据。
3.数据准备:接下来是数据准备阶段。这包括以下步骤:选择适用的数据,通过合并数据集整合数据,清理数据,通过消除或插补来处理缺失值,通过消除它们来处理不准确的数据,另外测试异常值的使用箱线图并处理它们。构建新数据,从现有数据中衍生出新元素。将数据格式化为首选结构,消除不需要的列和特征。数据准备是整个存在周期中最耗时但可以说是最重要的步骤。您的模型将与您的数据一样准确。
4. 探索性数据分析:此步骤包括在构建真实模型之前获得有关答案和影响它的元素的一些概念。使用条形图以图形方式探索字符独特变量内的数据分布,通过散点图和热图等图形表示捕获不同方面之间的关系。许多数据可视化策略被大量用于单独发现每个特征,并通过将它们与不同的特征相结合来发现每个特征。
5. 数据建模:数据建模是数据分析的核心。模型将组织好的数据作为输入并给出首选输出。这一步包括选择合适的模型类型,无论问题是分类问题、回归问题还是聚类问题。在决定了模型族之后,在该族的算法数量中,我们需要谨慎地挑选出要实施和执行的算法。我们需要调整每个模型的超参数以获得首选性能。我们还需要确保整体性能和通用性之间具有适当的稳定性。我们不再希望模型研究数据并在新数据上运行不佳。
6.模型评估:在这里评估模型以检查它是否准备好部署。该模型在一个看不见的数据上进行检查,并根据一组经过深思熟虑的评估指标进行评估。我们还需要肯定模型符合现实。如果我们在评估中没有获得高质量的最终结果,我们必须重新迭代完整的建模过程,直到达到指标的首选阶段。任何数据科学解决方案,机器学习模型,就像人类一样,必须进化,必须能够用新数据增强自身,适应新的评估指标。我们可以为某种现象构建多个模型,但是,其中很多模型也可能不完美。模型评估帮助我们选择和构建理想的模型。
7.模型部署:经过严格评估的模型最终部署在首选的结构和渠道中。这是数据科学生命周期的最后一步。上面定义的数据科学生命周期中的每一步都必须仔细研究。如果任何步骤执行不当,从而对后续步骤产生影响,那么整个工作就白费了。例如,如果数据不再正确累积,您将丢失记录并且您将不再构建理想模型。如果信息没有正确清理,模型将不再起作用。如果模型评估不当,它将在现实世界中失败。从业务感知到模型部署,每一步都必须给予适当的关注、时间和精力。