pyspark mapreduce 数据帧 - Python 代码示例

📌 相关文章

创建数据框 pyspark - Python 代码示例
创建数据框 pyspark - Python (1)
mapreduce java (1)
mapreduce java - 任何代码示例
MapReduce-安装(1)
MapReduce-安装
创建 PySpark 数据帧
创建 PySpark 数据帧(1)
如何迭代 pyspark 数据框 - Python 代码示例
MapReduce 如何处理数据查询？(1)
MapReduce 如何处理数据查询？
MapReduce API
MapReduce-API
MapReduce API(1)
MapReduce-算法
删除列 pyspark - Python 代码示例
MapReduce教程
MapReduce教程
MapReduce教程(1)
MapReduce教程(1)
数据框 pyspark 中的行数 - Python 代码示例
MapReduce-简介
MapReduce-简介(1)
如何迭代 pyspark 数据框 - Python (1)
MapReduce-合并器
MapReduce-合并器(1)
将数据附加到 PySpark 中的空数据框
将数据附加到 PySpark 中的空数据框(1)
pyspark 数据帧 json 字符串 - Javascript 代码示例

📜 pyspark mapreduce 数据帧 - Python 代码示例

📅 最后修改于: 2022-03-11 14:45:59.874000 🧑 作者: Mango

代码示例1

df.rdd \
  .filter(lambda x: x[1] == "france") \ # only french stations
  .map(lambda x: (x[0], x[2])) \ # select station & temp
  .mapValues(lambda x: (x, 1)) \ # generate count
  .reduceByKey(lambda x, y: (x[0]+y[0], x[1]+y[1])) \ # calculate sum & count
  .mapValues(lambda x: x[0]/x[1]) \ # calculate average
  .sortBy(lambda x: x[1], ascending = False) \ # sort
  .take(100)