📝 大数据分析教程

99篇技术文档
  大数据分析教程

📅  最后修改于: 2020-12-02 06:35:32        🧑  作者: Mango

在过去的十年中,必须处理的数据量激增至不可思议的水平,与此同时,系统地降低了数据存储的价格。私人公司和研究机构从其手机,汽车等设备中捕获有关其用户交互,业务,社交媒体以及传感器的TB级数据。这个时代的挑战是如何理解这片海量的数据,这正是大数据分析成为现实的地方。大数据分析主要涉及收集来自不同来源的数据,以使其可以被分析师使用的方式处理数据,最后提供对组织业务有用的数据产品。从不同来源检索到的大量非...

  大数据分析-概述

📅  最后修改于: 2020-12-02 06:35:47        🧑  作者: Mango

在过去的十年中,必须处理的数据量激增至不可思议的水平,与此同时,系统地降低了数据存储的价格。私人公司和研究机构从其手机,汽车等设备中捕获有关其用户交互,业务,社交媒体以及传感器的TB级数据。这个时代的挑战是要理解这片海量的数据。这是大数据分析应运而生的地方。大数据分析主要涉及收集来自不同来源的数据,以使其可以被分析师使用的方式处理数据,最后提供对组织业务有用的数据产品。从不同来源检索到的大量非结构...

  大数据分析-数据生命周期

📅  最后修改于: 2020-12-02 06:36:45        🧑  作者: Mango

传统数据挖掘生命周期为了提供一个框架来组织组织所需的工作并从大数据中获得清晰的见解,将其视为具有不同阶段的循环是很有用的。它绝不是线性的,意味着所有阶段都是相互关联的。此循环与CRISP方法中描述的更传统的数据挖掘循环有表面上的相似之处。CRISP-DM方法论代表跨行业数据挖掘标准过程的CRISP-DM方法论描述了数据挖掘专家用来解决传统BI数据挖掘问题的常用方法。传统的BI数据挖掘团队仍在使用它...

  大数据分析-方法论

📅  最后修改于: 2020-12-02 06:37:03        🧑  作者: Mango

在方法论上,大数据分析与实验设计的传统统计方法明显不同。分析从数据开始。通常,我们以解释响应的方式对数据建模。该方法的目的是预测响应行为或了解输入变量与响应之间的关系。通常,在统计实验设计中,开发实验并作为结果检索数据。这允许以统计模型可以使用的方式生成数据,其中某些假设成立,例如独立性,正态性和随机性。在大数据分析中,我们将获得数据。我们无法设计满足我们最喜欢的统计模型的实验。在分析的大规模应用...

  大数据分析-核心可交付成果

📅  最后修改于: 2020-12-02 06:37:18        🧑  作者: Mango

如大数据生命周期中所述,在大多数情况下,开发大数据产品所产生的数据产品包括:机器学习实现-可以是分类算法,回归模型或细分模型。推荐系统-目标是开发一种系统,该系统根据用户行为来推荐选择。Netflix是此数据产品的典型示例,其中根据用户的评级推荐其他电影。仪表板-业务通常需要使用工具来可视化聚合数据。仪表板是使这些数据可访问的图形机制。即席分析-通常的业务领域有疑问,假设或可回答做与数据即席分析神...

  大数据分析-主要利益相关者

📅  最后修改于: 2020-12-02 06:37:36        🧑  作者: Mango

在大型组织中,为了成功开发大数据项目,需要让管理层备份该项目。这通常涉及寻找一种方法来显示项目的业务优势。对于找到项目的发起人的问题,我们没有独特的解决方案,但是下面给出了一些指导原则-检查与您感兴趣的其他项目相似的其他项目的赞助者和地点。在关键管理职位上建立个人联系会有所帮助,因此,如果项目有希望,则可以触发任何联系。谁将从您的项目中受益?一旦项目按计划进行,谁将是您的客户?制定一个简单,清晰,...

  大数据分析-数据分析师

📅  最后修改于: 2020-12-02 06:37:54        🧑  作者: Mango

数据分析师具有面向报告的配置文件,具有使用SQL从传统数据仓库中提取和分析数据的经验。他们的任务通常在数据存储方面或在报告一般业务结果方面。数据仓库绝非简单,它与数据科学家所做的只是不同。许多组织都在努力寻找市场上合格的数据科学家。但是,最好选择潜在的数据分析师,并教给他们相关的技能,以成为数据科学家。这绝不是一项琐碎的任务,通常会涉及在定量领域获得硕士学位的人,但这绝对是一个可行的选择。一位合格...

  大数据分析-数据科学家

📅  最后修改于: 2020-12-02 06:38:13        🧑  作者: Mango

数据科学家的角色通常与诸如预测建模,开发细分算法,推荐系统,A / B测试框架之类的任务相关,并且经常与原始的非结构化数据一起工作。他们的工作性质要求对数学,应用统计和编程有深入的了解。数据分析师和数据科学家之间有一些共同的技能,例如查询数据库的能力。两者都可以分析数据,但是数据科学家的决定可以对组织产生更大的影响。这是数据科学家通常需要具备的一组技能-使用统计包(例如R, Python,SAS,...

  大数据分析-问题定义

📅  最后修改于: 2020-12-02 06:38:48        🧑  作者: Mango

通过本教程,我们将开发一个项目。本教程的后续各章在“小型项目”部分中讨论了较大项目的一部分。认为这是一个实用的教程部分,它将提供对实际问题的了解。在这种情况下,我们将从项目的问题定义开始。项目简介该项目的目标是开发一种机器学习模型,以使用其履历(CV)文本作为输入来预测人们的时薪。使用上面定义的框架,很容易定义问题。我们可以将X = {x1,x2,…,xn}定义为用户的简历,其中每个功能都可以以最...

  大数据分析-数据收集

📅  最后修改于: 2020-12-02 06:39:11        🧑  作者: Mango

数据收集在大数据周期中扮演着最重要的角色。互联网为各种主题提供了几乎无限的数据源。该领域的重要性取决于业务类型,但是传统行业可以获取各种外部数据源并将其与交易数据结合。例如,假设我们要构建一个推荐餐厅的系统。第一步是收集数据,在这种情况下,是来自不同网站的餐厅评论,并将其存储在数据库中。由于我们对原始文本感兴趣,并将其用于分析,因此用于存储模型开发数据的位置并不重要。这听起来可能与大数据主要技术相...

  大数据分析-清理数据

📅  最后修改于: 2020-12-02 06:39:33        🧑  作者: Mango

一旦收集了数据,我们通常会获得具有不同特征的各种数据源。最直接的步骤是使这些数据源齐整,并继续开发我们的数据产品。但是,这取决于数据的类型。我们应该问自己,对数据进行均匀化是否可行。也许数据来源是完全不同的,如果将这些来源同质化,信息损失将很大。在这种情况下,我们可以考虑其他选择。一个数据源可以帮助我建立回归模型,另一个数据源可以帮助分类模型吗?是否可以利用异质性来发挥我们的优势,而不仅仅是失去信...

  大数据分析-汇总数据

📅  最后修改于: 2020-12-02 06:39:55        🧑  作者: Mango

报告在大数据分析中非常重要。每个组织必须定期提供信息以支持其决策过程。这项任务通常由具有SQL和ETL(提取,传输和加载)经验的数据分析师处理。负责此任务的团队负责将大数据分析部门产生的信息传播到组织的不同区域。下面的示例演示数据汇总的含义。导航到bda / part1 / summarize_data文件夹,然后在该文件夹内部,双击打开summary_data.Rproj文件。然后,打开summ...

  大数据分析-数据探索

📅  最后修改于: 2020-12-02 06:40:14        🧑  作者: Mango

探索性数据分析是约翰·塔克(John Tuckey,1977)提出的一个概念,它基于统计学的新观点。 Tuckey的想法是,在传统统计中,数据不是以图形方式进行探索,而只是用于检验假设。开发工具的第一次尝试是在斯坦福进行的,该项目称为prim9。该工具能够在九个维度上可视化数据,因此能够提供数据的多元视角。近年来,探索性数据分析是必须的,并且已包含在大数据分析生命周期中。强大的EDA功能推动了在组...

  大数据分析-数据可视化

📅  最后修改于: 2020-12-02 06:40:35        🧑  作者: Mango

为了理解数据,通常将其可视化很有用。通常在大数据应用程序中,人们的兴趣在于寻找见识,而不仅仅是做出漂亮的图。以下是使用图解理解数据的不同方法的示例。要开始分析航班数据,我们可以先检查数字变量之间是否存在相关性。此代码也可在bda / part1 / data_visualization / data_visualization.R文件中找到。此代码生成以下相关矩阵可视化-在图中可以看到,数据集中的...

  大数据分析-R简介

📅  最后修改于: 2020-12-02 06:41:13        🧑  作者: Mango

本节专门向用户介绍R编程语言。可以从cran网站下载R。对于Windows用户,安装rtools和rstudio IDE很有用。R背后的一般概念是用作以编译语言(例如C,C++和Fortran)开发的其他软件的接口,并为用户提供用于分析数据的交互式工具。导航至书籍zip文件bda / part2 / R_introduction的文件夹,然后打开R_introduction.Rproj文件。这将打...