Apache Spark教程 - 芒果文档

📅 最后修改于: 2020-12-27 02:37:12 🧑 作者: Mango

RDD操作RDD提供两种类型的操作：转型行动转型在Spark中，转换的作用是从现有数据集中创建新数据集。转换被认为是惰性的，因为它们仅在动作需要将结果返回给驱动程序时才计算。让我们看一些常用的RDD转换。TransformationDescriptionmap(func)It returns a new distributed dataset formed by passing each elem...

Apache Spark RDD持久性

📅 最后修改于: 2020-12-27 02:38:14 🧑 作者: Mango

RDD持久性通过将数据持久存储在操作中的内存中，Spark提供了一种方便的方法来处理数据集。在保留RDD时，每个节点会将其计算的任何分区存储在内存中。现在，我们还可以在该数据集的其他任务中重用它们。我们可以使用persist()或cache()方法来标记要保留的RDD。 Spark的缓存是容错的。无论如何，如果RDD的分区丢失了，它将使用最初创建它的转换自动重新计算它。可以使用不同的存储级别来存储...

Apache Spark RDD共享变量

📅 最后修改于: 2020-12-27 02:39:09 🧑 作者: Mango

RDD共享变量在Spark中，当任何函数传递给转换操作时，它将在远程集群节点上执行。它对函数中使用的所有变量的不同副本函数。这些变量将复制到每台计算机，并且远程计算机上的变量的任何更新都不会还原到驱动程序。广播变量广播变量支持在每台计算机上缓存的只读变量，而不是提供带有任务的副本。 Spark使用广播算法来分发广播变量，以降低通信成本。火花动作的执行经过多个阶段，由分布式“随机播放”操作分隔。 S...

Apache Spark Map函数

📅 最后修改于: 2020-12-27 02:40:06 🧑 作者: Mango

火花图函数在Spark中，地图通过函数传递源的每个元素，并形成一个新的分布式数据集。地图函数示例在此示例中，我们向每个元素添加常数10。要在Scala模式下打开火花，请遵循以下命令使用并行化集合创建RDD。现在，我们可以使用以下命令读取生成的结果。应用map函数并传递执行所需的表达式。现在，我们可以使用以下命令读取生成的结果。在这里，我们得到了期望的输出。...

Apache Spark过滤器功能

📅 最后修改于: 2020-12-27 02:41:04 🧑 作者: Mango

火花过滤器功能在Spark中，Filter函数返回一个新的数据集，该数据集是通过选择源函数返回true的那些元素形成的。因此，它仅检索满足给定条件的元素。过滤函数示例在此示例中，我们过滤给定的数据并检索除35之外的所有值。要在Scala模式下打开火花，请遵循以下命令。使用并行化集合创建RDD。现在，我们可以使用以下命令读取生成的结果。应用过滤器函数并传递执行所需的表达式。现在，我们可以使用以下命令...

Apache Spark计数功能

📅 最后修改于: 2020-12-27 02:41:59 🧑 作者: Mango

火花计数功能在Spark中，Count函数返回数据集中存在的元素数。计数函数示例在此示例中，我们计算数据集中存在的元素数。使用并行化集合创建RDD。现在，我们可以使用以下命令读取生成的结果。应用count()函数对元素数量进行计数。在这里，我们得到了期望的输出。...

Apache Spark独特功能

📅 最后修改于: 2020-12-27 02:42:56 🧑 作者: Mango

火花独特功能在Spark中，Distinct函数从提供的数据集中返回不同的元素。独特函数示例在此示例中，我们忽略重复的元素，仅检索不同的元素。要在Scala模式下打开火花，请遵循以下命令。使用并行化集合创建RDD。现在，我们可以使用以下命令读取生成的结果。应用distinct()函数忽略重复的元素。现在，我们可以使用以下命令读取生成的结果。在这里，我们得到了期望的输出。...

Apache Spark联合函数

📅 最后修改于: 2020-12-27 02:43:54 🧑 作者: Mango

火花联合功能在Spark中，Union函数返回一个新的数据集，其中包含不同数据集中存在的元素的组合。联合函数示例在此示例中，我们组合了两个数据集的元素。要在Scala模式下打开火花，请遵循以下命令。使用并行化集合创建RDD。现在，我们可以使用以下命令读取生成的结果。使用并行化的集合创建另一个RDD。现在，我们可以使用以下命令读取生成的结果。应用union()函数返回元素的并集。现在，我们可以使用以...

Apache Spark交点函数

📅 最后修改于: 2020-12-27 02:44:50 🧑 作者: Mango

火花路口功能在Spark中，交集函数返回一个新的数据集，其中包含不同数据集中存在的元素的交集。因此，它仅返回单行。此函数的行为类似于SQL中的INTERSECT查询。交叉口函数示例在此示例中，我们将两个数据集的元素相交。要在Scala模式下打开Spark，请遵循以下命令。使用并行化的集合创建一个RDD。现在，我们可以使用以下命令读取生成的结果。使用并行化的集合创建另一个RDD。现在，我们可以使用以...

Apache Spark笛卡尔函数

📅 最后修改于: 2020-12-27 02:45:47 🧑 作者: Mango

火花笛卡尔函数在Spark中，笛卡尔函数生成两个数据集的笛卡尔积，并返回所有可能的对组合。这里，一个数据集的每个元素与另一个数据集的每个元素配对。笛卡尔函数的例子在此示例中，我们生成两个数据集的笛卡尔乘积。要在Scala模式下打开Spark，请遵循以下命令。使用并行化的集合创建一个RDD。现在，我们可以使用以下命令读取生成的结果。使用并行化的集合创建另一个RDD。现在，我们可以使用以下命令读取生成...

Apache Spark sortByKey函数

📅 最后修改于: 2020-12-27 02:46:44 🧑 作者: Mango

Spark sortByKey函数在Spark中，sortByKey函数维护元素的顺序。它接收键值对(K，V)作为输入，按升序或降序对元素进行排序，并按顺序生成数据集。sortByKey函数示例在此示例中，我们按升序和降序排列数据集的元素。要在Scala模式下打开Spark，请遵循以下命令。使用并行化的集合创建一个RDD。现在，我们可以使用以下命令读取生成的结果。为了提升，应用sortByKey(...

Apache Spark groupByKey函数

📅 最后修改于: 2020-12-27 02:47:41 🧑 作者: Mango

Spark groupByKey函数在Spark中，groupByKey函数是执行数据改组的常用转换操作。它接收键值对(K，V)作为输入，基于键对值进行分组，并生成(K，Iterable<v> )对作为输出。</v>groupByKey函数的示例在此示例中，我们根据键对值进行分组。要在Scala模式下打开Spark，请遵循以下命令。使用并行化的集合创建一个RDD。现在，我们可以使用以下命令读取生成...

Apache Spark reduceByKey函数

📅 最后修改于: 2020-12-27 02:48:38 🧑 作者: Mango

Spark reduceByKey函数在Spark中，reduceByKey函数是执行数据聚合的常用转换操作。它接收键-值对(K，V)作为输入，基于键聚合值，并生成(K，V)对的数据集作为输出。reduceByKey函数的示例在此示例中，我们基于键汇总值。要在Scala模式下打开Spark，请遵循以下命令。使用并行化的集合创建一个RDD。现在，我们可以使用以下命令读取生成的结果。应用reduceB...

Apache Spark协同功能

📅 最后修改于: 2020-12-27 02:49:35 🧑 作者: Mango

Spark协同功能在Spark中，cogroup函数在不同的数据集上执行，假设(K，V)和(K，W)并返回(K，(Iterable，可迭代))元组。此操作也称为groupWith。协同功能示例在此示例中，我们执行groupWith操作。要在Scala模式下打开Spark，请遵循以下命令。使用并行化的集合创建一个RDD。现在，我们可以使用以下命令读取生成的结果。使用并行化的集合创建另一个RDD。现在...

Apache Spark第一个功能

📅 最后修改于: 2020-12-27 02:50:32 🧑 作者: Mango

火花优先功能在Spark中，First函数始终返回数据集的第一个元素。它类似于take(1)。第一个函数示例在此示例中，我们检索数据集的第一个元素。要在Scala模式下打开Spark，请遵循以下命令。使用并行化的集合创建一个RDD。现在，我们可以使用以下命令读取生成的结果。应用first()函数检索数据集的第一个元素。在这里，我们得到了期望的输出。...