📝 大数据分析教程

99篇技术文档
  大数据分析-SQL简介

📅  最后修改于: 2020-12-02 06:41:46        🧑  作者: Mango

SQL代表结构化查询语言。它是从传统数据仓库和大数据技术中的数据库中提取数据的最广泛使用的语言之一。为了演示SQL的基础知识,我们将使用示例。为了专注于语言本身,我们将在R中使用SQL。就编写SQL代码而言,这与在数据库中所做的完全相同。SQL的核心是三个语句:SELECT,FROM和WHERE。以下示例利用了最常见的SQL用例。浏览到文件夹bda / part2 / SQL_introducti...

  大数据分析-图表

📅  最后修改于: 2020-12-02 06:42:12        🧑  作者: Mango

分析数据的第一种方法是对数据进行可视化分析。这样做的目的通常是寻找变量与变量的单变量描述之间的关系。我们可以将这些策略划分为-单变量分析多元分析单变量图形方法单变量是一个统计术语。实际上,这意味着我们要独立于其余数据来分析变量。允许有效地做到这一点的情节是-箱线图箱形图通常用于比较分布。这是一种直观检查分布之间是否存在差异的好方法。我们可以看到不同切割的钻石价格之间是否存在差异。我们可以从图中看到...

  大数据分析-数据分析工具

📅  最后修改于: 2020-12-02 06:42:46        🧑  作者: Mango

有多种工具可让数据科学家有效地分析数据。通常,数据分析的工程方面侧重于数据库,数据科学家侧重于可以实现数据产品的工具。下一节将讨论不同工具的优势,重点是数据科学家在实践中最常使用的统计软件包。R编程语言R是一种开放源代码编程语言,专注于统计分析。就统计功能而言,它与SAS,SPSS等商业工具具有竞争力。它被认为是与其他编程语言(例如C,C++或Fortran)的接口。R的另一个优点是有大量可用的开...

  大数据分析-统计方法

📅  最后修改于: 2020-12-02 06:43:40        🧑  作者: Mango

分析数据时,可以采用统计方法。进行基本分析所需的基本工具是-相关分析方差分析假设检验在处理大型数据集时,它不会带来问题,因为除了相关分析之外,这些方法的计算量并不大。在这种情况下,始终可以取样,并且结果应可靠。相关分析关联分析试图找到数值变量之间的线性关系。这可以在不同的情况下使用。探索性数据分析是一种常见的用法,该书的第16.0.2节提供了这种方法的一个基本示例。首先,在上述示例中使用的相关度量...

  机器学习进行数据分析

📅  最后修改于: 2020-12-02 06:43:58        🧑  作者: Mango

机器学习是计算机科学的一个子领域,它处理诸如模式识别,计算机视觉,语音识别,文本分析之类的任务,并且与统计和数学优化有着紧密的联系。应用包括搜索引擎,垃圾邮件过滤,光学字符识别(OCR)等的开发。数据挖掘,模式识别和统计学习领域之间的界限不清楚,基本上都涉及类似的问题。机器学习可以分为两种任务-监督学习无监督学习监督学习监督学习是指一种问题,其中有一个定义为矩阵X的输入数据,我们有兴趣预测响应y。...

  大数据分析-朴素贝叶斯分类器

📅  最后修改于: 2020-12-02 06:44:21        🧑  作者: Mango

朴素贝叶斯是一种构造分类器的概率技术。朴素贝叶斯分类器的特征假设是考虑给定类变量,特定特征的值独立于任何其他特征的值。尽管前面提到的假设过于简单,但朴素的贝叶斯分类器在复杂的现实情况下仍具有良好的结果。朴素贝叶斯的一个优点是它只需要少量训练数据即可估计分类所需的参数,并且可以逐步训练分类器。朴素贝叶斯是一个条件概率模型:给定要分类的问题实例,用代表某些n个特征(独立变量)的向量x=(x1,…,xn...

  大数据分析-K-Means聚类

📅  最后修改于: 2020-12-02 06:44:39        🧑  作者: Mango

k均值聚类旨在将n个观察值划分为k个聚类,其中每个观察值均属于具有最均值的聚类,作为聚类的原型。这导致将数据空间划分为Voronoi单元。给定一组观测值(x1,x2,…,xn),其中每个观测值都是d维实矢量,k-均值聚类旨在将n个观测值划分为k个组G = {G1,G2,…,Gk},以最小化如下定义的集群内平方和(WCSS)-$$ argmin \:\ sum_ {i = 1} ^ {k} \ su...

  大数据分析-关联规则

📅  最后修改于: 2020-12-02 06:45:02        🧑  作者: Mango

令I = i1,i2,…,in是一组称为项的n个二进制属性。令D = t1,t2,…,tm是称为数据库的一组事务。 D中的每个事务都有唯一的事务ID,并且包含I中项的子集。规则定义为X⇒Y的形式,其中X,Y⊆I和X∩Y =∅。项目集(对于短项目集)X和Y称为规则的前项(左侧或LHS),其后称为规则的右侧(右侧或RHS)。为了说明这些概念,我们使用超市领域的一个小例子。项目集为I = {牛奶,面包,...

  大数据分析-决策树

📅  最后修改于: 2020-12-02 06:45:24        🧑  作者: Mango

决策树是用于监督学习问题(例如分类或回归)的算法。决策树或分类树是其中每个内部(非叶子)节点都标记有输入要素的树。来自标记有特征的节点的弧线会标记有该特征的每个可能值。树的每片叶子都标记有一个类别或类别上的概率分布。通过基于属性值测试将源集划分为子集,可以“学习”树。以称为递归分区的递归方式在每个派生子集上重复此过程。当节点处的子集具有目标变量的所有相同值时,或者拆分不再为预测增加值时,递归完成。...

  大数据分析-Logistic回归

📅  最后修改于: 2020-12-02 06:45:42        🧑  作者: Mango

Logistic回归是一种分类模型,其中的响应变量是分类的。它是一种来自统计的算法,用于监督分类问题。在逻辑回归中,我们试图在以下方程式中找到参数矢量β,以最小化成本函数。$$ logit(p_i)= ln \ left(\ frac {p_i} {1-p_i} \ right)= \ beta_0 + \ beta_1x_ {1,i} + … + \ beta_kx_ {k,i} $$以下代码演...

  大数据分析-时间序列分析

📅  最后修改于: 2020-12-02 06:46:08        🧑  作者: Mango

时间序列是按日期或时间戳索引的分类或数字变量的观测序列。时间序列数据的一个明显例子是股价的时间序列。在下表中,我们可以看到时间序列数据的基本结构。在这种情况下,每小时记录一次观察结果。TimestampStock – Price2015-10-11 09:00:001002015-10-11 10:00:001102015-10-11 11:00:001052015-10-11 12:00:009...

  大数据分析-文本分析

📅  最后修改于: 2020-12-02 06:46:28        🧑  作者: Mango

在本章中,我们将使用本书第1部分中抓取的数据。数据中的文字描述了自由职业者的个人资料,以及他们按美元收取的小时费率。下一节的想法是建立一个模型,该模型给出了自由职业者的技能,我们能够预测其小时薪。下面的代码显示了如何转换原始文本,在这种情况下,原始文本具有成组的单词矩阵。为此,我们使用一个名为tm的R库。这意味着我们为语料库中的每个单词创建一个变量,其中包含每个变量的出现次数。现在我们将文本表示为...

  大数据分析-在线学习

📅  最后修改于: 2020-12-02 06:47:02        🧑  作者: Mango

在线学习是机器学习的一个子领域,它可以将监督学习模型扩展到大量数据集。基本思想是,我们不需要读取内存中的所有数据即可适应模型,只需要一次读取每个实例。在这种情况下,我们将展示如何使用逻辑回归来实现在线学习算法。与大多数监督学习算法一样,成本函数被最小化。在逻辑回归中,成本函数定义为-$$ J(\ theta)\:= \:\ frac {-1} {m} \ left [\ sum_ {i = 1} ...

  大数据分析-有用的资源

📅  最后修改于: 2020-12-02 06:47:22        🧑  作者: Mango

以下资源包含有关大数据分析的其他信息。请使用它们来获得有关此方面的更深入的知识。大数据分析的有用链接大数据分析Wiki-大数据分析的维基百科参考关于大数据分析的实用书籍要在此页面上注册您的网站,请发送电子邮件至...

  讨论大数据分析

📅  最后修改于: 2020-12-02 06:47:37        🧑  作者: Mango

在过去的十年中,必须处理的数据量激增至不可思议的水平,与此同时,系统地降低了数据存储的价格。私人公司和研究机构从其手机,汽车等设备中捕获有关其用户交互,业务,社交媒体以及传感器的TB级数据。这个时代的挑战是要理解这片海量的数据。这是大数据分析应运而生的地方。大数据分析主要涉及收集来自不同来源的数据,以使其可以被分析师使用的方式处理数据,最后提供对组织业务有用的数据产品。从不同来源检索到的大量非结构...