📅  最后修改于: 2023-12-03 15:28:05.052000             🧑  作者: Mango
在数据科学和工程中,计算平均值是一个常见任务。Spark提供了一种简单的方法来计算RDD中元素的平均值。下面介绍如何使用Python计算平均值。
我们需要导入 pyspark
库,并创建一个 SparkContext
对象。
from pyspark import SparkContext
sc = SparkContext("local", "Average Calculation")
让我们随机生成一些整数来创建一个 RDD。
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
rdd = sc.parallelize(data)
我们可以使用 mean()
函数来计算 RDD 中元素的平均值。
avg = rdd.mean()
print("Average is:", avg)
输出结果如下:
Average is: 5.5
完整代码示例如下:
from pyspark import SparkContext
sc = SparkContext("local", "Average Calculation")
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
rdd = sc.parallelize(data)
avg = rdd.mean()
print("Average is:", avg)
sc.stop()
在本文中,我们介绍了如何使用Python计算RDD中元素的平均值。通过导入必要的库、创建RDD和使用 mean()
函数,我们能够很容易地计算出平均值。这些技巧可以应用于更复杂的数据集和计算任务。