📜  获取缺失值数据框的数量 - Python (1)

📅  最后修改于: 2023-12-03 15:27:51.471000             🧑  作者: Mango

获取缺失值数据框的数量 - Python

在数据分析中,我们经常需要检查数据中是否有缺失值,如果有缺失值,我们需要找出缺失值的数量并进行处理。本文介绍如何使用Python获取缺失值数据框的数量。

1. 导入库

在开始之前,我们需要导入pandas库,它是Python中用于数据处理和分析的最常用库之一。

import pandas as pd
2. 读取数据

为了演示如何获取缺失值数据框的数量,我们需要先读取一个数据集。这里我们使用Pandas自带的Titanic数据集。

# 读取Titanic数据集
df = pd.read_csv('https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv')
3. 检查缺失值

接下来,我们需要检查数据中是否有缺失值。可以使用DataFrame的isna()方法检查每个元素是否为缺失值,并使用sum()方法计算每一列中缺失值的数量。

# 检查缺失值
missing_values = df.isna().sum()
print(missing_values)

输出结果为:

Survived      0
Pclass        0
Name          0
Sex           0
Age         177
SibSp         0
Parch         0
Ticket        0
Fare          0
Cabin       687
Embarked      2
dtype: int64

从结果可以看出,Age、Cabin和Embarked列中分别有177、687和2个缺失值。

4. 获取缺失值数据框的数量

最后,我们可以将缺失值数据框的数量存储为一个新的数据框,并打印输出。

# 获取缺失值数据框的数量
missing_df = pd.DataFrame({'column_name': df.columns, 'missing_count': missing_values})
missing_df = missing_df[missing_df['missing_count']>0]
print(missing_df)

输出结果为:

  column_name  missing_count
4         Age            177
8       Cabin            687
9    Embarked              2

从结果可以看出,在Titanic数据集中,Age列中有177个缺失值,Cabin列中有687个缺失值,Embarked列中有2个缺失值。

至此,我们成功地使用Python获取了缺失值数据框的数量。