📅  最后修改于: 2023-12-03 15:18:42.130000             🧑  作者: Mango
这是一个使用Python语言中的numpy和pandas库来检查数据集中缺失值的程序。
在数据分析的过程中,经常需要检查数据集中存在的缺失值。缺失值的存在会影响数据的准确性和可靠性,因此需要对缺失值进行处理,以保证分析结果的可靠性。
程序中使用的 isnull() 函数可以检查数据集中的缺失值,sum() 函数可以求出缺失值的总数。np.round() 函数可以将结果四舍五入,len() 函数可以求出数据集的行数。
程序的输出结果使得数据科学家能够更好地进行数据预处理,并使得后续的数据分析更加准确。
使用以下代码片段来检查数据集中的缺失值:
import numpy as np
import pandas as pd
# 读取数据集
df = pd.read_csv('data.csv')
# 使用 isnull() 函数检查数据集中的缺失值,sum() 函数可以求出缺失值的总数
missing_values = np.round(df.isnull().sum() / len(df), 2)
# 输出结果
print(missing_values)
该代码片段将会输出一个包含每一列中缺失值占总数的百分比的数组。
如果数据集中有5列,那么输出结果将类似于以下内容:
col1 0.12
col2 0.05
col3 0.00
col4 0.23
col5 0.09
dtype: float64
在输出结果中,每一行包含了列名(例如 col1、col2 等)和该列中缺失值占总数的百分比。dtype: float64
表明输出结果是一个浮点数数组。