pyspark 按行拆分数据帧 - 无论代码示例

📌 相关文章

linux 按行拆分文件 - Shell-Bash 代码示例
linux 按行拆分文件 - Shell-Bash (1)
python 按行创建数据帧 - Python 代码示例
在 pyspark 中将数据插入数据帧 - 无论代码示例
创建数据框 pyspark - Python 代码示例
创建 PySpark 数据帧(1)
创建 PySpark 数据帧
r 字符串拆分 - 无论代码示例
选择列 pyspark - 无论代码示例
R中按行名称合并数据帧(1)
R中按行名称合并数据帧
创建数据框 pyspark - Python (1)
如何使用拆分 - 无论代码示例
如何按行对 Pandas 数据框的值求和？
如何按行对 Pandas 数据框的值求和？(1)
将数据附加到 PySpark 中的空数据框(1)
将数据附加到 PySpark 中的空数据框
拆分时间戳 - 无论代码示例
pyspark 数据帧 json 字符串 - Javascript 代码示例
PySpark - 从列表创建数据帧(1)
PySpark - 从列表创建数据帧
如何迭代 pyspark 数据框 - Python 代码示例
pyspark 打印所有行 - 无论代码示例
如何按行在 R 中打乱数据帧(1)
如何按行在 R 中打乱数据帧
r 中数据帧的列 - 无论代码示例
numpy 按行排序 - Python 代码示例
拆分 javascript 代码示例
在 pyspark 中将数据插入数据帧 (1)

📜 pyspark 按行拆分数据帧 - 无论代码示例

📅 最后修改于: 2022-03-11 14:59:46.903000 🧑 作者: Mango

代码示例1

from pyspark.sql.window import Window
from pyspark.sql.functions import monotonically_increasing_id, ntile

values = [(str(i),) for i in range(100)]
df = spark.createDataFrame(values, ('value',))

def split_by_row_index(df, num_partitions=4):
    # Let's assume you don't have a row_id column that has the row order
    t = df.withColumn('_row_id', monotonically_increasing_id())
    # Using ntile() because monotonically_increasing_id is discontinuous across partitions
    t = t.withColumn('_partition', ntile(num_partitions).over(Window.orderBy(t._row_id))) 
    return [t.filter(t._partition == i+1).drop('_row_id', '_partition') for i in range(partitions)]

[i.collect() for i in split_by_row_index(df)]