📅  最后修改于: 2023-12-03 15:27:51.471000             🧑  作者: Mango
在数据分析中,我们经常需要检查数据中是否有缺失值,如果有缺失值,我们需要找出缺失值的数量并进行处理。本文介绍如何使用Python获取缺失值数据框的数量。
在开始之前,我们需要导入pandas库,它是Python中用于数据处理和分析的最常用库之一。
import pandas as pd
为了演示如何获取缺失值数据框的数量,我们需要先读取一个数据集。这里我们使用Pandas自带的Titanic数据集。
# 读取Titanic数据集
df = pd.read_csv('https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv')
接下来,我们需要检查数据中是否有缺失值。可以使用DataFrame的isna()方法检查每个元素是否为缺失值,并使用sum()方法计算每一列中缺失值的数量。
# 检查缺失值
missing_values = df.isna().sum()
print(missing_values)
输出结果为:
Survived 0
Pclass 0
Name 0
Sex 0
Age 177
SibSp 0
Parch 0
Ticket 0
Fare 0
Cabin 687
Embarked 2
dtype: int64
从结果可以看出,Age、Cabin和Embarked列中分别有177、687和2个缺失值。
最后,我们可以将缺失值数据框的数量存储为一个新的数据框,并打印输出。
# 获取缺失值数据框的数量
missing_df = pd.DataFrame({'column_name': df.columns, 'missing_count': missing_values})
missing_df = missing_df[missing_df['missing_count']>0]
print(missing_df)
输出结果为:
column_name missing_count
4 Age 177
8 Cabin 687
9 Embarked 2
从结果可以看出,在Titanic数据集中,Age列中有177个缺失值,Cabin列中有687个缺失值,Embarked列中有2个缺失值。
至此,我们成功地使用Python获取了缺失值数据框的数量。