📅  最后修改于: 2023-12-03 14:55:55.844000             🧑  作者: Mango
在数据分析中,常常需要了解数据集中每列缺失值的数量。这有助于我们判断数据集的完整性,以及在进行数据清洗和预处理时选择合适的策略。
以下是一个Python函数,用于计算数据集中每列缺失值的数量:
import pandas as pd
def count_missing_values(df):
"""
计算数据集中每列缺失值的数量
参数:
df:一个Pandas DataFrame对象
返回值:
一个Pandas Series对象,包含每列缺失值的数量
"""
return df.isnull().sum()
这个函数接受一个Pandas DataFrame对象作为参数,返回一个Pandas Series对象,其中每个元素对应输入DataFrame中的每列,表示该列中缺失值的数量。
使用示例:
import pandas as pd
df = pd.read_csv('example.csv')
missing_values = count_missing_values(df)
print(missing_values)
输出结果如下:
Column A 5
Column B 10
Column C 0
Column D 2
dtype: int64
以上结果表明,在输入的数据集中,Column A列中有5个缺失值,Column B列中有10个缺失值,Column C列中没有缺失值,Column D列中有2个缺失值。
在实际应用中,我们可以根据缺失值的数量选择合适的数据清洗和预处理策略,以保证数据的完整性和准确性。