📜  毫升 |使用简单的 Imputer 处理丢失的数据

📅  最后修改于: 2022-05-13 01:54:28.399000             🧑  作者: Mango

毫升 |使用简单的 Imputer 处理丢失的数据

SimpleImputer是一个 scikit-learn 类,有助于处理预测模型数据集中的缺失数据。它用指定的占位符替换 NaN 值。
它是通过使用SimpleImputer()方法实现的,该方法采用以下参数:

代码:说明使用 SimpleImputer 类的Python代码。

Python3
import numpy as np
 
# Importing the SimpleImputer class
from sklearn.impute import SimpleImputer
 
# Imputer object using the mean strategy and
# missing_values type for imputation
imputer = SimpleImputer(missing_values = np.nan,
                        strategy ='mean')
 
data = [[12, np.nan, 34], [10, 32, np.nan],
        [np.nan, 11, 20]]
 
print("Original Data : \n", data)
# Fitting the data to the imputer object
imputer = imputer.fit(data)
 
# Imputing the data    
data = imputer.transform(data)
 
print("Imputed Data : \n", data)


输出

Original Data : 

[[12, nan, 34]
[10, 32, nan]
[nan, 11, 20]]


Imputed Data : 

[[12, 21.5, 34]
[10, 32, 27]
[11, 11, 20]]

记住:平均值或中位数是沿矩阵的列取的