📅  最后修改于: 2023-12-03 15:18:51.310000             🧑  作者: Mango
在PySpark中,我们可以使用dropna
函数来去除DataFrame中的空值。当我们需要处理大规模数据集的时候,空值通常是很常见的,因此去除空值是我们常常需要使用的操作之一。
以一列中的空值为例,下面给出了一个示例代码:
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName('test').getOrCreate()
# 创建一个包含空值的DataFrame
data = spark.createDataFrame([(1, None),(2, 5),(None, 7)], ['a', 'b'])
data.show()
# 使用dropna去除空值
data.dropna(subset=['a']).show()
上述代码首先创建了一个包含空值的DataFrame,显示为空值的列为列a
。然后,使用dropna
函数去除了所有含有空值的行,仅显示不含空值的行。
在上述代码中,使用了subset
参数来指定仅对哪些列应用dropna
函数。如果不指定该参数,则默认对所有列应用去除空值操作。另外,还可以使用how
参数设置空值处理的方式,如how='any'
表示要去除含有任何一个空值的行,how='all'
表示仅去除所有列均为空值的行等。
至此,我们已经介绍了如何在PySpark中使用dropna
函数去除DataFrame中的空值。【注意:代码需与上下文融合在一起】