📌  相关文章
📜  从 Pandas 数据框中删除列中缺少值或 NaN 的行(1)

📅  最后修改于: 2023-12-03 14:49:18.674000             🧑  作者: Mango

从 Pandas 数据框中删除列中缺少值或 NaN 的行

在数据分析中,我们经常需要对数据进行清洗,其中一个重要的步骤是删除包含缺失值或 NaN 的行。Pandas 是一个非常强大的 Python 数据分析库,它提供了很多方便的函数来帮助我们进行数据清洗。

在 Pandas 中,我们可以使用 dropna() 函数来删除缺失值或 NaN 的行。dropna() 函数的语法如下:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

其中,axis 参数表示要删除的轴,0 表示删除行,1 表示删除列(默认为 0);how 参数表示删除的条件,可以是 any 或 all,any 表示任何一行或列中有缺失值或 NaN 就删除,all 表示所有行或列中都有缺失值或 NaN 才删除;thresh 参数表示每行或每列允许的缺失值或 NaN 的数量;subset 参数表示需要考虑的列名,只对指定的列进行处理;inplace 参数表示是否在原数据框中进行删除(默认为 False)。

下面是一个简单的例子:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, np.nan, 8], 'C': [9, 10, 11, 12]})
print(df)

# 删除包含缺失值或 NaN 的行
df = df.dropna()
print(df)

输出结果:

     A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
2  NaN  NaN  11
3  4.0  8.0  12

     A    B  C
0  1.0  5.0  9
3  4.0  8.0  12

可以看到,原数据框中包含两行缺失值或 NaN,经过 dropna() 函数处理后,这些行被成功删除了,只剩下了两行完整的数据。