📅  最后修改于: 2023-12-03 15:41:55.182000             🧑  作者: Mango
在PySpark中,我们经常需要操作RDD(弹性分布式数据集)。一个常见的需求是通过给出的元组创建一个RDD,并返回每个元组键的RDD。 这可以用下面的代码实现:
from pyspark import SparkContext
sc = SparkContext("local", "App Name")
# 创建元组列表
tuple_list = [(1, 'apple'), (2, 'banana'), (3, 'orange')]
# 创建元组RDD
tuple_rdd = sc.parallelize(tuple_list)
# 返回每个元组键的 RDD
keys_rdd = tuple_rdd.keys()
# 显示每个元组键的 RDD
for key in keys_rdd.collect():
print(key)
首先,我们需要创建一个SparkContext对象,这是Spark应用程序的入口点。然后,我们创建了一个元组列表,其中每个元组都由键值对组成。接下来,我们使用SparkContext对象创建一个RDD(tuple_rdd
),这个RDD包含了元组列表中的元素。
为了返回每个元组键的RDD,我们可以使用keys()
方法。最后,在这个例子中,我们简单地使用collect()
方法和for
循环显示每个元组键的RDD。
# 返回一个带有每个元组键的 RDD
在PySpark中,我们经常需要操作RDD(弹性分布式数据集)。一个常见的需求是通过给出的元组创建一个RDD,并返回每个元组键的RDD。 这可以用下面的代码实现:
```python
from pyspark import SparkContext
sc = SparkContext("local", "App Name")
# 创建元组列表
tuple_list = [(1, 'apple'), (2, 'banana'), (3, 'orange')]
# 创建元组RDD
tuple_rdd = sc.parallelize(tuple_list)
# 返回每个元组键的 RDD
keys_rdd = tuple_rdd.keys()
# 显示每个元组键的 RDD
for key in keys_rdd.collect():
print(key)
首先,我们需要创建一个SparkContext对象,这是Spark应用程序的入口点。然后,我们创建了一个元组列表,其中每个元组都由键值对组成。接下来,我们使用SparkContext对象创建一个RDD(tuple_rdd
),这个RDD包含了元组列表中的元素。
为了返回每个元组键的RDD,我们可以使用keys()
方法。最后,在这个例子中,我们简单地使用collect()
方法和for
循环显示每个元组键的RDD。