📜  使用 sklrean 填充缺失值 - Python (1)

📅  最后修改于: 2023-12-03 14:49:46.777000             🧑  作者: Mango

使用 sklearn 填充缺失值 - Python

在数据预处理的过程中,经常会遇到数据中存在缺失值的情况。处理缺失值是数据预处理的重要步骤之一,而 sklearn 是一个功能强大的 Python 库,提供了多种方法来处理缺失值。

本文将介绍如何使用 sklearn 来填充缺失值,包括常用的方法和示例代码。

1. 导入必要的库

首先,我们需要导入以下必要的库:

from sklearn.impute import SimpleImputer
import numpy as np

SimpleImputer 是 sklearn 中用于填充缺失值的类,numpy 是一个数值计算库,我们将使用它来创建示例数据。

2. 创建示例数据

在填充缺失值之前,我们需要创建一些示例数据。我们将创建一个包含缺失值的 numpy 数组。

以下是一个示例数据的代码:

# 创建示例数据
data = np.array([[1, 2, np.nan],
                [4, np.nan, 6],
                [7, 8, 9]])

该数据是一个 3x3 的二维数组,包含一些缺失值。

3. 填充缺失值

我们将使用 SimpleImputer 类来填充缺失值。SimpleImputer 提供了几种常见的填充策略,包括使用均值、中位数、众数等来填充。

以下是使用 SimpleImputer 来填充缺失值的示例代码:

# 创建实例
imputer = SimpleImputer(strategy='mean')

# 应用填充策略
imputed_data = imputer.fit_transform(data)
  • 首先,我们创建了一个 SimpleImputer 的实例,并指定使用均值来填充缺失值。
  • 然后,我们调用 fit_transform 方法,将缺失值填充为均值,并返回填充后的新数据。
4. 结果展示

最后,我们可以通过打印填充后的数据来展示结果:

print(imputed_data)

输出结果如下:

[[1. 2. 7. ]
 [4. 5. 6. ]
 [7. 8. 9. ]]

可以看到,缺失值已经被填充为均值,数据不再包含缺失值。

总结

本文介绍了使用 sklearn 来填充缺失值的方法。通过使用 SimpleImputer 类,我们可以方便地选择不同的填充策略来处理缺失值。

希望此文对你有所帮助!