📝 Apache Spark教程
33篇技术文档📅  最后修改于: 2020-12-27 02:37:12        🧑  作者: Mango
RDD操作RDD提供两种类型的操作:转型行动转型在Spark中,转换的作用是从现有数据集中创建新数据集。转换被认为是惰性的,因为它们仅在动作需要将结果返回给驱动程序时才计算。让我们看一些常用的RDD转换。TransformationDescriptionmap(func)It returns a new distributed dataset formed by passing each elem...
📅  最后修改于: 2020-12-27 02:38:14        🧑  作者: Mango
RDD持久性通过将数据持久存储在操作中的内存中,Spark提供了一种方便的方法来处理数据集。在保留RDD时,每个节点会将其计算的任何分区存储在内存中。现在,我们还可以在该数据集的其他任务中重用它们。我们可以使用persist()或cache()方法来标记要保留的RDD。 Spark的缓存是容错的。无论如何,如果RDD的分区丢失了,它将使用最初创建它的转换自动重新计算它。可以使用不同的存储级别来存储...
📅  最后修改于: 2020-12-27 02:39:09        🧑  作者: Mango
RDD共享变量在Spark中,当任何函数传递给转换操作时,它将在远程集群节点上执行。它对函数中使用的所有变量的不同副本函数。这些变量将复制到每台计算机,并且远程计算机上的变量的任何更新都不会还原到驱动程序。广播变量广播变量支持在每台计算机上缓存的只读变量,而不是提供带有任务的副本。 Spark使用广播算法来分发广播变量,以降低通信成本。火花动作的执行经过多个阶段,由分布式“随机播放”操作分隔。 S...
📅  最后修改于: 2020-12-27 02:40:06        🧑  作者: Mango
火花图函数在Spark中,地图通过函数传递源的每个元素,并形成一个新的分布式数据集。地图函数示例在此示例中,我们向每个元素添加常数10。要在Scala模式下打开火花,请遵循以下命令使用并行化集合创建RDD。现在,我们可以使用以下命令读取生成的结果。应用map函数并传递执行所需的表达式。现在,我们可以使用以下命令读取生成的结果。在这里,我们得到了期望的输出。...
📅  最后修改于: 2020-12-27 02:41:04        🧑  作者: Mango
火花过滤器功能在Spark中,Filter函数返回一个新的数据集,该数据集是通过选择源函数返回true的那些元素形成的。因此,它仅检索满足给定条件的元素。过滤函数示例在此示例中,我们过滤给定的数据并检索除35之外的所有值。要在Scala模式下打开火花,请遵循以下命令。使用并行化集合创建RDD。现在,我们可以使用以下命令读取生成的结果。应用过滤器函数并传递执行所需的表达式。现在,我们可以使用以下命令...
📅  最后修改于: 2020-12-27 02:41:59        🧑  作者: Mango
火花计数功能在Spark中,Count函数返回数据集中存在的元素数。计数函数示例在此示例中,我们计算数据集中存在的元素数。使用并行化集合创建RDD。现在,我们可以使用以下命令读取生成的结果。应用count()函数对元素数量进行计数。在这里,我们得到了期望的输出。...
📅  最后修改于: 2020-12-27 02:42:56        🧑  作者: Mango
火花独特功能在Spark中,Distinct函数从提供的数据集中返回不同的元素。独特函数示例在此示例中,我们忽略重复的元素,仅检索不同的元素。要在Scala模式下打开火花,请遵循以下命令。使用并行化集合创建RDD。现在,我们可以使用以下命令读取生成的结果。应用distinct()函数忽略重复的元素。现在,我们可以使用以下命令读取生成的结果。在这里,我们得到了期望的输出。...
📅  最后修改于: 2020-12-27 02:43:54        🧑  作者: Mango
火花联合功能在Spark中,Union函数返回一个新的数据集,其中包含不同数据集中存在的元素的组合。联合函数示例在此示例中,我们组合了两个数据集的元素。要在Scala模式下打开火花,请遵循以下命令。使用并行化集合创建RDD。现在,我们可以使用以下命令读取生成的结果。使用并行化的集合创建另一个RDD。现在,我们可以使用以下命令读取生成的结果。应用union()函数返回元素的并集。现在,我们可以使用以...
📅  最后修改于: 2020-12-27 02:44:50        🧑  作者: Mango
火花路口功能在Spark中,交集函数返回一个新的数据集,其中包含不同数据集中存在的元素的交集。因此,它仅返回单行。此函数的行为类似于SQL中的INTERSECT查询。交叉口函数示例在此示例中,我们将两个数据集的元素相交。要在Scala模式下打开Spark,请遵循以下命令。使用并行化的集合创建一个RDD。现在,我们可以使用以下命令读取生成的结果。使用并行化的集合创建另一个RDD。现在,我们可以使用以...
📅  最后修改于: 2020-12-27 02:45:47        🧑  作者: Mango
火花笛卡尔函数在Spark中,笛卡尔函数生成两个数据集的笛卡尔积,并返回所有可能的对组合。这里,一个数据集的每个元素与另一个数据集的每个元素配对。笛卡尔函数的例子在此示例中,我们生成两个数据集的笛卡尔乘积。要在Scala模式下打开Spark,请遵循以下命令。使用并行化的集合创建一个RDD。现在,我们可以使用以下命令读取生成的结果。使用并行化的集合创建另一个RDD。现在,我们可以使用以下命令读取生成...
📅  最后修改于: 2020-12-27 02:46:44        🧑  作者: Mango
Spark sortByKey函数在Spark中,sortByKey函数维护元素的顺序。它接收键值对(K,V)作为输入,按升序或降序对元素进行排序,并按顺序生成数据集。sortByKey函数示例在此示例中,我们按升序和降序排列数据集的元素。要在Scala模式下打开Spark,请遵循以下命令。使用并行化的集合创建一个RDD。现在,我们可以使用以下命令读取生成的结果。为了提升,应用sortByKey(...
📅  最后修改于: 2020-12-27 02:47:41        🧑  作者: Mango
Spark groupByKey函数在Spark中,groupByKey函数是执行数据改组的常用转换操作。它接收键值对(K,V)作为输入,基于键对值进行分组,并生成(K,Iterable<v> )对作为输出。</v>groupByKey函数的示例在此示例中,我们根据键对值进行分组。要在Scala模式下打开Spark,请遵循以下命令。使用并行化的集合创建一个RDD。现在,我们可以使用以下命令读取生成...
📅  最后修改于: 2020-12-27 02:48:38        🧑  作者: Mango
Spark reduceByKey函数在Spark中,reduceByKey函数是执行数据聚合的常用转换操作。它接收键-值对(K,V)作为输入,基于键聚合值,并生成(K,V)对的数据集作为输出。reduceByKey函数的示例在此示例中,我们基于键汇总值。要在Scala模式下打开Spark,请遵循以下命令。使用并行化的集合创建一个RDD。现在,我们可以使用以下命令读取生成的结果。应用reduceB...
📅  最后修改于: 2020-12-27 02:49:35        🧑  作者: Mango
Spark协同功能在Spark中,cogroup函数在不同的数据集上执行,假设(K,V)和(K,W)并返回(K,(Iterable,可迭代))元组。此操作也称为groupWith。协同功能示例在此示例中,我们执行groupWith操作。要在Scala模式下打开Spark,请遵循以下命令。使用并行化的集合创建一个RDD。现在,我们可以使用以下命令读取生成的结果。使用并行化的集合创建另一个RDD。现在...
📅  最后修改于: 2020-12-27 02:50:32        🧑  作者: Mango
火花优先功能在Spark中,First函数始终返回数据集的第一个元素。它类似于take(1)。第一个函数示例在此示例中,我们检索数据集的第一个元素。要在Scala模式下打开Spark,请遵循以下命令。使用并行化的集合创建一个RDD。现在,我们可以使用以下命令读取生成的结果。应用first()函数检索数据集的第一个元素。在这里,我们得到了期望的输出。...