📝 敏捷数据科学教程

23篇技术文档
  敏捷数据科学教程

📅  最后修改于: 2021-01-23 05:47:30        🧑  作者: Mango

敏捷是一种软件开发方法,可通过使用1到4周的短暂迭代通过增量会话帮助构建软件,从而使开发与不断变化的业务需求保持一致。敏捷数据科学由敏捷方法论和数据科学组成。在本教程中,我们使用了适当的示例来帮助您以一般而快速的方式理解敏捷开发和数据科学。本教程已为开发人员和项目经理准备,以帮助他们了解敏捷原理及其实现的基础。完成本教程后,您将发现自己具有中等专业知识水平,从中可以进一步实施数据科学和敏捷方法。先...

  敏捷数据科学-简介

📅  最后修改于: 2021-01-23 05:47:50        🧑  作者: Mango

敏捷数据科学是一种将数据科学与敏捷方法一起用于Web应用程序开发的方法。它关注于适合于组织变革的数据科学过程的输出。数据科学包括构建应用程序,这些应用程序通过分析,交互式可视化以及现在应用的机器学习来描述研究过程。敏捷数据科学的主要目标是-记录并指导解释性数据分析,以发现并遵循引人注目的产品的关键路径。敏捷数据科学的组织遵循以下原则-连续迭代此过程涉及使用创建表,图表,报告和预测进行连续迭代。建立...

  敏捷数据科学-方法论概念

📅  最后修改于: 2021-01-23 05:48:31        🧑  作者: Mango

在本章中,我们将重点介绍称为“敏捷”的软件开发生命周期的概念。敏捷软件开发方法论可通过在1到4周的短迭代中通过增量会话来构建软件,从而使开发与不断变化的业务需求保持一致。有12条原则详细描述了敏捷方法论-顾客满意通过尽早并持续交付有价值的软件,将重点放在满足客户需求的客户上。欢迎新变化在软件开发期间可以接受更改。敏捷流程旨在配合客户的竞争优势而工作。交货在一到四周的时间内就向客户提供了工作软件。合...

  敏捷数据科学-数据科学过程

📅  最后修改于: 2021-01-23 05:48:55        🧑  作者: Mango

在本章中,我们将了解数据科学过程以及理解该过程所需的术语。“数据科学是数据接口,算法开发和技术的融合,以解决复杂的分析问题”。数据科学是一个涵盖科学方法,过程和系统的跨学科领域,其类别包括机器学习,数学和统计知识以及传统研究。它还包括黑客技巧和大量专业知识的结合。数据科学借鉴了数学,统计学,信息科学和计算机科学,数据挖掘和预测分析的原理。下面提到了构成数据科学团队一部分的不同角色-顾客客户是使用产...

  敏捷工具和安装

📅  最后修改于: 2021-01-23 05:49:13        🧑  作者: Mango

在本章中,我们将学习各种敏捷工具及其安装。敏捷方法的开发堆栈包括以下组件集-大事记事件是发生的事件,或者与其功能和时间戳一起记录的事件。事件可以以多种形式出现,例如服务器,传感器,财务交易或操作,我们的用户在我们的应用程序中采用。在本完整的教程中,我们将使用JSON文件,这些文件将促进不同工具和语言之间的数据交换。收藏家收集器是事件聚合器。他们以系统的方式收集事件,以存储和汇总庞大的数据,以便排队...

  敏捷数据科学-敏捷中的数据处理

📅  最后修改于: 2021-01-23 05:49:33        🧑  作者: Mango

在本章中,我们将重点介绍结构化,半结构化和非结构化数据之间的区别。结构化数据结构化数据涉及以SQL格式存储在具有行和列的表中的数据。它包括一个关系键,该关系键映射到预先设计的字段中。结构化数据被大规模使用。结构化数据仅占所有信息学数据的5%到10%。半结构化数据Sem结构化数据包括不在关系数据库中的数据。它们包括一些组织属性,使分析更容易。它包括将它们存储在关系数据库中的相同过程。半结构化数据库的...

  敏捷数据科学-SQL与NoSQL

📅  最后修改于: 2021-01-23 05:49:55        🧑  作者: Mango

本教程的重点是遵循敏捷方法,减少步骤数,并实施更多有用的工具。要了解这一点,重要的是要了解SQL和NoSQL数据库之间的区别。大多数用户都知道SQL数据库,并且对MySQL,Oracle或其他SQL数据库有很好的了解。在过去的几年中,NoSQL数据库被广泛采用来解决各种业务问题和项目要求。下表显示了SQL和NoSQL数据库之间的区别-SQLNoSQLSQL databases are mainly...

  NoSQL和数据流编程

📅  最后修改于: 2021-01-23 05:50:15        🧑  作者: Mango

有时数据无法以关系格式提供,我们需要借助NoSQL数据库使其保持事务性。在本章中,我们将重点介绍NoSQL的数据流。我们还将学习敏捷与数据科学相结合的运作方式。将NoSQL与敏捷结合使用的主要原因之一是为了提高市场竞争的速度。以下原因说明NoSQL如何最适合敏捷软件方法-更少的障碍即使在敏捷开发的情况下,更改当前正在中游的模型也会带来一些实际成本。使用NoSQL,用户可以处理聚合数据,而不是在规范...

  收集和显示记录

📅  最后修改于: 2021-01-23 05:50:31        🧑  作者: Mango

在本章中,我们将重点介绍JSON结构,该结构构成“敏捷方法论”的一部分。 MongoDB是一种广泛使用的NoSQL数据结构,可轻松操作以收集和显示记录。第1步此步骤涉及与MongoDB建立连接以创建集合和指定的数据模型。您需要执行的是用于启动连接的“ mongod”命令和连接到指定终端的mongo命令。第2步创建一个新数据库以创建JSON格式的记录。现在,我们正在创建一个名为“ mydb”的虚拟数...

  敏捷数据科学-数据可视化

📅  最后修改于: 2021-01-23 05:50:51        🧑  作者: Mango

数据可视化在数据科学中扮演着非常重要的角色。我们可以将数据可视化视为数据科学的模块。数据科学不仅仅包含构建预测模型。它包括对模型的解释,并使用它们来理解数据并做出决策。数据可视化是以最有说服力的方式呈现数据的组成部分。从数据科学的角度来看,数据可视化是一个突出的功能,可以显示变化和趋势。考虑以下指导以实现有效的数据可视化-沿通用比例尺定位数据。在比较圆形和正方形时,使用条形图更有效。散点图应使用正...

  敏捷数据科学-数据丰富

📅  最后修改于: 2021-01-23 05:51:09        🧑  作者: Mango

数据充实是指用于增强,改进和改善原始数据的一系列过程。它指有用的数据转换(将原始数据转换为有用的信息)。数据丰富化过程着重于使数据成为现代企业或企业的宝贵数据资产。最常见的数据丰富过程包括通过使用特定的决策算法来纠正数据库中的拼写错误或印刷错误。数据充实工具将有用的信息添加到简单的数据表中。考虑以下代码对单词进行拼写纠正-在此程序中,我们将与“ big.txt”匹配,其中包括更正的单词。单词与文本...

  敏捷数据科学-处理报告

📅  最后修改于: 2021-01-23 05:51:26        🧑  作者: Mango

在本章中,我们将学习有关报表创建的信息,这是敏捷方法学的重要模块。敏捷冲刺通过可视化创建的图表页面到功能完善的报告中。有了报告,图表就可以变成交互式的,静态页面变成动态的,并且与网络相关的数据。数据值金字塔的报告阶段的特征如下所示-我们将更加注重创建csv文件,该文件可用作数据科学分析的报告并得出结论。尽管敏捷只关注较少的文档,但是始终会考虑生成报告以提及产品开发的进度。上面的代码将帮助您生成“ ...

  敏捷数据科学-预测的作用

📅  最后修改于: 2021-01-23 05:51:46        🧑  作者: Mango

在本章中,我们将了解预测在敏捷数据科学中的作用。交互式报告展示了数据的不同方面。预测构成敏捷冲刺的第四层。进行预测时,我们总是参考过去的数据,并将其用作未来迭代的推论。在这个完整的过程中,我们将数据从历史数据的批处理过渡到有关未来的实时数据。预测的作用包括以下内容-预测有助于预测。一些预测是基于统计推断的。一些预测是基于专家的观点。统计推断涉及各种预测。有时预测是准确的,而有时预测是不准确的。预测...

  使用PySpark提取功能

📅  最后修改于: 2021-01-23 05:52:02        🧑  作者: Mango

在本章中,我们将学习PySpark提取功能在敏捷数据科学中的应用。Spark概述可以将Apache Spark定义为快速的实时处理框架。它进行计算以实时分析数据。 Apache Spark是作为实时流处理系统引入的,还可以处理批处理。 Apache Spark支持交互式查询和迭代算法。Spark用“ Scala编程语言”编写。PySpark可被视为Python与Spark的结合。 PySpark提...

  建立回归模型

📅  最后修改于: 2021-01-23 05:52:19        🧑  作者: Mango

Logistic回归是指用于预测分类因变量的概率的机器学习算法。在逻辑回归中,因变量是二进制变量,它由编码为1的数据(布尔值true和false)组成。在本章中,我们将重点介绍使用连续变量在Python开发回归模型。线性回归模型的示例将集中于从CSV文件进行数据探索。分类目标是预测客户是否将订阅(1/0)定期存款。请按照以下步骤使用“ Jupyter Notebook”在Anaconda Navi...