📜  每列缺失值的数量 (1)

📅  最后修改于: 2023-12-03 14:55:55.844000             🧑  作者: Mango

每列缺失值的数量

在数据分析中,常常需要了解数据集中每列缺失值的数量。这有助于我们判断数据集的完整性,以及在进行数据清洗和预处理时选择合适的策略。

以下是一个Python函数,用于计算数据集中每列缺失值的数量:

import pandas as pd

def count_missing_values(df):
    """
    计算数据集中每列缺失值的数量

    参数:
    df:一个Pandas DataFrame对象

    返回值:
    一个Pandas Series对象,包含每列缺失值的数量
    """
    return df.isnull().sum()

这个函数接受一个Pandas DataFrame对象作为参数,返回一个Pandas Series对象,其中每个元素对应输入DataFrame中的每列,表示该列中缺失值的数量。

使用示例:

import pandas as pd

df = pd.read_csv('example.csv')
missing_values = count_missing_values(df)

print(missing_values)

输出结果如下:

Column A     5
Column B    10
Column C     0
Column D     2
dtype: int64

以上结果表明,在输入的数据集中,Column A列中有5个缺失值,Column B列中有10个缺失值,Column C列中没有缺失值,Column D列中有2个缺失值。

在实际应用中,我们可以根据缺失值的数量选择合适的数据清洗和预处理策略,以保证数据的完整性和准确性。