📅  最后修改于: 2023-12-03 15:28:19.409000             🧑  作者: Mango
在 PySpark 中,我们可以使用 intersection()
方法来返回两个 RDD 的交集。该方法返回一个新的 RDD,其中包括两个 RDD 中共有的元素。
rdd.intersection(other)
参数说明:
other
:要计算交集的 RDD。rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize([2, 4, 6, 8, 10])
intersect_rdd = rdd1.intersection(rdd2)
print(intersect_rdd.collect())
输出结果为:
[2, 4]
在上面的示例中,我们首先创建了两个 RDD rdd1
和 rdd2
,它们包括不同的整数。然后,我们使用 intersection()
方法计算这两个 RDD 的交集,并将结果存储在 intersect_rdd
中。最后,我们使用 collect()
方法将 RDD 中的所有元素返回,以便查看结果。
intersection()
方法在 PySpark 中用于计算两个 RDD 的交集。 使用此方法,我们可以轻松地找到两个 RDD 中共有的元素并执行其他操作。