📝 Apache Spark教程
33篇技术文档📅  最后修改于: 2020-12-02 05:49:04        🧑  作者: Mango
Apache Spark是专为快速计算而设计的闪电般的集群计算。它建立在Hadoop MapReduce之上,并且扩展了MapReduce模型以有效地使用更多类型的计算,包括交互式查询和流处理。这是一个简短的教程,解释了Spark Core编程的基础。本教程是为希望使用Spark Framework学习大数据分析基础知识并成为Spark开发人员的专业人员准备的。此外,这对于Analytics Pr...
📅  最后修改于: 2020-12-02 05:49:35        🧑  作者: Mango
行业正在广泛使用Hadoop分析其数据集。原因是Hadoop框架基于简单的编程模型(MapReduce),它使计算解决方案具有可扩展性,灵活性,容错性和成本效益。在这里,主要的关注点是在查询之间的等待时间和运行程序的等待时间方面,保持处理大型数据集的速度。Apache Software Foundation引入Spark是为了加快Hadoop计算计算软件过程。与通常的看法相反,Spark不是Had...
📅  最后修改于: 2020-12-02 05:50:04        🧑  作者: Mango
弹性分布式数据集弹性分布式数据集(RDD)是Spark的基本数据结构。它是对象的不可变分布式集合。 RDD中的每个数据集都分为逻辑分区,可以在群集的不同节点上进行计算。 RDD可以包含任何类型的Python,Java或Scala对象,包括用户定义的类。正式而言,RDD是记录的只读分区集合。可以通过对稳定存储上的数据或其他RDD进行确定性操作来创建RDD。 RDD是可以并行操作的元素的容错集合。有两...
📅  最后修改于: 2020-12-02 05:50:31        🧑  作者: Mango
Spark是Hadoop的子项目。因此,最好将Spark安装到基于Linux的系统中。以下步骤显示了如何安装Apache Spark。步骤1:验证Java安装Java安装是安装Spark的必要步骤之一。尝试使用以下命令来验证JAVA版本。如果您的系统上已经安装了Java,则会看到以下响应-如果您的系统上没有安装Java,请在继续下一步之前先安装Java。步骤2:验证Scala安装您应该使用Scal...
📅  最后修改于: 2020-12-02 05:51:39        🧑  作者: Mango
Spark Core是整个项目的基础。它提供了分布式任务分配,调度和基本的I / O功能。 Spark使用称为RDD(弹性分布式数据集)的专用基础数据结构,该结构是跨机器分区的逻辑数据集合。 RDD可以通过两种方式创建:一种是通过引用外部存储系统中的数据集,第二种是通过对现有RDD进行转换(例如,映射,过滤器,化简,联接)。RDD抽象是通过语言集成的API公开的。这简化了编程的复杂性,因为应用程序...
📅  最后修改于: 2020-12-02 05:52:19        🧑  作者: Mango
使用spark-submit的Spark应用程序是一个Shell命令,用于在集群上部署Spark应用程序。它通过统一的界面使用所有各自的集群管理器。因此,您不必为每个应用程序都配置您的应用程序。例让我们以以前使用shell命令的单词计数为例。在这里,我们考虑与Spark应用程序相同的示例。样本输入以下文本是输入数据,名为in.txt的文件。看下面的程序-SparkWordCount.scala将上...
📅  最后修改于: 2020-12-02 05:52:46        🧑  作者: Mango
Spark包含两种不同类型的共享变量-一种是广播变量,另一种是累加器。广播变量-用于有效地分配较大的值。累加器-用于汇总特定集合的信息。广播变量广播变量使程序员可以在每台计算机上保留一个只读变量,而不是将其副本与任务一起发送。例如,可以使用它们以有效的方式为每个节点提供大型输入数据集的副本。 Spark还尝试使用有效的广播算法分配广播变量,以降低通信成本。火花动作是通过一组阶段执行的,这些阶段由分...
📅  最后修改于: 2020-12-02 05:53:03        🧑  作者: Mango
以下资源包含有关Apache Spark的其他信息。请使用它们来获得有关此方面的更深入的知识。Apache Spark上的有用链接Apache Spark–Apache Spark参考。Spark概述-Apache Spark的Spark概述参考。Apache Spark-有关Apache Spark的维基百科参考。关于Apache Spark的有用书籍要在此页面上注册您的网站,请发送电子邮件至...
📅  最后修改于: 2020-12-02 05:53:16        🧑  作者: Mango
Apache Spark是专为快速计算而设计的闪电般的集群计算。它建立在Hadoop MapReduce之上,并且扩展了MapReduce模型以有效地使用更多类型的计算,包括交互式查询和流处理。这是一个简短的教程,解释了Spark Core编程的基础。...
📅  最后修改于: 2020-12-27 02:31:27        🧑  作者: Mango
Apache Spark教程Apache Spark教程提供了Spark的基本和高级概念。我们的Spark教程专为初学者和专业人士设计。Spark是用于大规模数据处理的统一分析引擎,包括用于SQL,流,机器学习和图形处理的内置模块。我们的Spark教程包含Apache Spark的所有主题,其中包括Spark简介,Spark安装,Spark体系结构,Spark组件,RDD,Spark实时示例等。先...
📅  最后修改于: 2020-12-27 02:32:24        🧑  作者: Mango
什么是星火?Apache Spark是一个开放源代码群集计算框架。其主要目的是处理实时生成的数据。Spark建立在Hadoop MapReduce的顶部。它经过优化可在内存中运行,而诸如Hadoop的MapReduce之类的替代方法则可以在计算机硬盘之间来回写入数据。因此,Spark处理数据的速度比其他方法快得多。Apache Spark的历史Spark由2009年在加州大学伯克利分校AMPLab...
📅  最后修改于: 2020-12-27 02:33:20        🧑  作者: Mango
火花安装在本节中,我们将执行Spark的安装。因此,请按照以下步骤操作。下载Apache Spark tar文件。点击这里解压下载的tar文件。打开bashrc文件。现在,在最后复制以下火花路径。更新环境变量让我们在命令提示符下测试安装注意-此处,在Scala模式下启用了Spark。...
📅  最后修改于: 2020-12-27 02:34:18        🧑  作者: Mango
Spark架构Spark遵循主从架构。它的集群由一个主机和多个从机组成。Spark体系结构取决于两个抽象:弹性分布式数据集(RDD)有向无环图(DAG)弹性分布式数据集(RDD)弹性分布式数据集是可以在内存中存储在工作程序节点上的一组数据项。这里,弹性:恢复故障数据。分布式:数据分布在不同的节点之间。数据集:数据组。稍后我们将详细了解RDD。有向无环图(DAG)有向无环图是对数据执行一系列计算的有...
📅  最后修改于: 2020-12-27 02:35:14        🧑  作者: Mango
火花组件Spark项目由不同类型的紧密集成的组件组成。 Spark的核心是可以调度,分发和监视多个应用程序的计算引擎。让我们详细了解每个Spark组件。火花芯Spark Core是Spark的核心,并执行核心功能。它包含用于任务计划,故障恢复,与存储系统交互以及内存管理的组件。Spark SQLSpark SQL构建在Spark Core的顶部。它提供对结构化数据的支持。它允许通过SQL(结构化查...
📅  最后修改于: 2020-12-27 02:36:09        🧑  作者: Mango
什么是RDD?RDD(弹性分布式数据集)是Spark的核心抽象。它是元素的集合,分布在集群的各个节点上,因此我们可以对其执行各种并行操作。有两种创建RDD的方法:并行化驱动程序中的现有数据引用外部存储系统中的数据集,例如共享文件系统,HDFS,HBase或提供Hadoop InputFormat的任何数据源。并行集合要创建并行化的集合,请在驱动程序中的现有集合上调用SparkContext的par...