📅  最后修改于: 2023-12-03 15:34:13.647000             🧑  作者: Mango
数据清洗是数据分析中一个非常重要的环节,而常见的数据清洗问题之一就是如何处理数据框中的空值。在Python中,可以使用pandas库的isnull
和sum
函数来计算数据框中的空值。
在使用pandas库之前,需要先安装它。可以使用以下命令在终端中安装pandas库:
$ pip install pandas
在使用pandas库时,需要先导入它。可以使用以下代码导入pandas库:
import pandas as pd
为了演示计算数据框中的空值,需要先创建一个数据框。可以使用以下代码创建一个包含空值的数据框:
import numpy as np
data = {'A': [1, 2, np.nan], 'B': [3, np.nan, 5], 'C': [np.nan, 7, 8]}
df = pd.DataFrame(data)
print(df)
输出结果如下:
A B C
0 1.0 3.0 NaN
1 2.0 NaN 7.0
2 NaN 5.0 8.0
使用isnull
函数可以检查数据框中的每个元素是否为空值,返回一个布尔型的数据框。使用sum
函数可以对布尔型的数据框进行求和操作,即求出每列中的空值个数。
以下代码演示如何计算数据框中的空值:
# 检查数据框中的每个元素是否为空值
null_values = df.isnull()
print(null_values)
# 计算每列中的空值个数
sum_null_values = null_values.sum()
print(sum_null_values)
输出结果如下:
A B C
0 False False True
1 False True False
2 True False False
A 1
B 1
C 1
dtype: int64
因为数据框中共有3列,每列中都有一个空值,所以输出的结果是A 1 B 1 C 1 dtype: int64
。
在Python中,使用pandas库的isnull
和sum
函数可以方便地计算数据框中的空值。这对于数据分析中的数据清洗非常有帮助。