Apache Spark协同功能 - 芒果文档

📌 相关文章

📜 Apache Spark协同功能

📅 最后修改于: 2020-12-27 02:49:35 🧑 作者: Mango

Spark协同功能

在Spark中，cogroup函数在不同的数据集上执行，假设(K，V)和(K，W)并返回(K，(Iterable ，可迭代))元组。此操作也称为groupWith 。

协同功能示例

在此示例中，我们执行groupWith操作。

要在Scala模式下打开Spark，请遵循以下命令。

$ spark-shell

使用并行化的集合创建一个RDD。

scala> val data1 = sc.parallelize(Seq(("A",1),("B",2),("C",3)))

现在，我们可以使用以下命令读取生成的结果。

scala> data1.collect

使用并行化的集合创建另一个RDD。

scala> val data2 = sc.parallelize(Seq(("B",4),("E",5)))

现在，我们可以使用以下命令读取生成的结果。

scala> data2.collect

应用cogroup()函数对值进行分组。

scala> val cogroupfunc = data1.cogroup(data2)

现在，我们可以使用以下命令读取生成的结果。

scala> cogroupfunc.collect

在这里，我们得到了期望的输出。