📌  相关文章
📜  返回此 RDD 与另一个 RDD 的交集 - Python (1)

📅  最后修改于: 2023-12-03 15:28:19.409000             🧑  作者: Mango

返回此 RDD 与另一个 RDD 的交集 - Python

在 PySpark 中,我们可以使用 intersection() 方法来返回两个 RDD 的交集。该方法返回一个新的 RDD,其中包括两个 RDD 中共有的元素。

语法
rdd.intersection(other)

参数说明:

  • other:要计算交集的 RDD。
示例
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize([2, 4, 6, 8, 10])

intersect_rdd = rdd1.intersection(rdd2)
print(intersect_rdd.collect())

输出结果为:

[2, 4]

在上面的示例中,我们首先创建了两个 RDD rdd1rdd2,它们包括不同的整数。然后,我们使用 intersection() 方法计算这两个 RDD 的交集,并将结果存储在 intersect_rdd 中。最后,我们使用 collect() 方法将 RDD 中的所有元素返回,以便查看结果。

总结

intersection() 方法在 PySpark 中用于计算两个 RDD 的交集。 使用此方法,我们可以轻松地找到两个 RDD 中共有的元素并执行其他操作。