📅  最后修改于: 2023-12-03 14:49:18.674000             🧑  作者: Mango
在数据分析中,我们经常需要对数据进行清洗,其中一个重要的步骤是删除包含缺失值或 NaN 的行。Pandas 是一个非常强大的 Python 数据分析库,它提供了很多方便的函数来帮助我们进行数据清洗。
在 Pandas 中,我们可以使用 dropna() 函数来删除缺失值或 NaN 的行。dropna() 函数的语法如下:
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
其中,axis 参数表示要删除的轴,0 表示删除行,1 表示删除列(默认为 0);how 参数表示删除的条件,可以是 any 或 all,any 表示任何一行或列中有缺失值或 NaN 就删除,all 表示所有行或列中都有缺失值或 NaN 才删除;thresh 参数表示每行或每列允许的缺失值或 NaN 的数量;subset 参数表示需要考虑的列名,只对指定的列进行处理;inplace 参数表示是否在原数据框中进行删除(默认为 False)。
下面是一个简单的例子:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, np.nan, 8], 'C': [9, 10, 11, 12]})
print(df)
# 删除包含缺失值或 NaN 的行
df = df.dropna()
print(df)
输出结果:
A B C
0 1.0 5.0 9
1 2.0 NaN 10
2 NaN NaN 11
3 4.0 8.0 12
A B C
0 1.0 5.0 9
3 4.0 8.0 12
可以看到,原数据框中包含两行缺失值或 NaN,经过 dropna() 函数处理后,这些行被成功删除了,只剩下了两行完整的数据。