📅  最后修改于: 2023-12-03 14:57:56.404000             🧑  作者: Mango
在PySpark中,可以使用count()
函数返回RDD中的元素数量。该函数将RDD中的所有元素送往相应的节点,并计算它们的数量。
以下是使用count()
函数的示例代码:
# 导入模块
from pyspark import SparkContext
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName("CountExample").getOrCreate()
# 创建RDD
rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5])
# 返回RDD中的元素数量
count = rdd.count()
# 输出结果
print("RDD中的元素数量为:", count)
以上代码将创建一个包含1到5的整数的RDD,然后使用count()
函数获取RDD中元素的数量,并将结果打印在控制台上。
输出结果如下:
RDD中的元素数量为: 5
因此,使用count()
函数可以轻松地返回RDD中的元素数量。