📅  最后修改于: 2023-12-03 15:04:02.203000             🧑  作者: Mango
在PySpark中,我们可以使用isNotNull方法筛选出数据框中不为空的行,这对于数据清洗和转换非常有用。
下面是isNotNull方法的基本语法:
DataFrame.filter(col(column_name).isNotNull())
其中,col(column_name)用于访问数据框中的列,isNotNull()方法则用于筛选不为空的行。
假设我们有以下的数据框:
+----+-------+----+
| id | name | age |
+----+-------+----+
| 1 | Alice | 30 |
| 2 | Bob | |
| 3 | Eve | 25 |
| 4 | | 28 |
+----+-------+----+
我们可以使用isNotNull方法来筛选出不为空的行:
from pyspark.sql.functions import col
df.filter(col('name').isNotNull() & col('age').isNotNull())
筛选结果如下:
+----+-------+----+
| id | name | age |
+----+-------+----+
| 1 | Alice | 30 |
| 3 | Eve | 25 |
+----+-------+----+
isNotNull方法是PySpark中非常有用的过滤器方法,可以帮助我们筛选出不为空的行,避免数据清洗和转换过程中的错误。