📜  用平均值替换 nan - Python (1)

📅  最后修改于: 2023-12-03 15:27:12.713000             🧑  作者: Mango

用平均值替换 NaN - Python

在数据分析中,我们常常会遇到一些缺失值。这些缺失值可以用 NaN(not a number)来表示。在处理数据时,我们需要对这些缺失值进行处理,常见的方法之一是用平均值来替换缺失值。

1. 导入必要的库

在进行数据处理时,我们需要导入一些常用的库来帮助我们完成任务。在本例中,我们需要使用 pandas 和 numpy 库来处理数据。

import pandas as pd
import numpy as np
2. 读取数据

我们需要从外部文件读入数据。本例中,我们使用 pandas 的 read_csv 函数来读取 csv 格式的文件。读入数据后,我们可以通过 head 函数查看前几行数据。

data = pd.read_csv("data.csv")
print(data.head())
3. 计算平均值

我们需要先计算数据的平均值。pandas 的 mean 函数可以帮助我们计算每列数据的平均值。在本例中,我们只需要计算数值型数据列的平均值。

numeric_columns = data.select_dtypes(include=[np.number]).columns
means = data[numeric_columns].mean()
4. 替换缺失值

我们已经计算出了每列数据的平均值。现在,我们可以使用 pandas 的 fillna 函数来替换缺失值。在本例中,我们使用每个数据列的平均值来替换缺失值。

data[numeric_columns] = data[numeric_columns].fillna(means)
5. 保存结果

我们已经用每列数据的平均值来替换了缺失值。现在,我们需要将结果保存到外部文件。pandas 的 to_csv 函数可以帮助我们将数据保存为 csv 格式的文件。

data.to_csv("result.csv", index=False)

以上就是用平均值替换缺失值的完整程序。通过这个程序,我们可以快速、方便地处理数据中的缺失值。