📅  最后修改于: 2023-12-03 15:23:14.745000             🧑  作者: Mango
当我们在使用 pandas 进行数据分析时,我们经常需要计算缺失值的数量、占比以及对缺失值进行处理。这里我们介绍如何使用 pandas 对每列进行缺失值计算。
在使用 pandas 进行数据分析时,首先要导入 pandas 工具包。
import pandas as pd
我们首先读取一个包含缺失值的数据集,这里我们使用 pandas 自带的 iris 数据集。
df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
我们可以使用以下代码来计算每列缺失值的数量。
num_missing = df.isnull().sum()
print(num_missing)
输出结果:
sepal_length 0
sepal_width 0
petal_length 0
petal_width 0
species 0
dtype: int64
这个结果表明在 iris 数据集中没有缺失值。
我们可以使用以下代码来计算每列缺失值的占比。
pct_missing = df.isnull().sum() / len(df)
print(pct_missing)
输出结果:
sepal_length 0.0
sepal_width 0.0
petal_length 0.0
petal_width 0.0
species 0.0
dtype: float64
这表明在 iris 数据集中每列缺失值所占比例都是0。
最后我们可以使用以下代码来对缺失值进行处理。
df.fillna(df.mean(), inplace=True)
这里我们使用每列的均值来填充缺失值。
以上就是在 pandas 中按列计算缺失值的方法。在实际项目中我们经常需要按列对缺失值进行处理,依靠 pandas 可以让我们在数据清洗中更加方便、高效。