📅  最后修改于: 2023-12-03 15:41:26.888000             🧑  作者: Mango
在使用 Pandas 进行数据分析时,缺失值是比较常见的情况。Pandas 提供了多种方法来处理这种情况,比如删除、填充缺失值等。在处理之前,我们需要知道缺失值的数量,针对数量有针对性地进行处理。
我们可以使用 Pandas 提供的 isna() 函数来计算 DataFrame 中缺失值的数量。isna() 函数将 DataFrame 中的所有元素进行遍历,如果是缺失值,则返回 True,否则返回 False,我们可以通过 sum() 函数来计算缺失值的数量。
import pandas as pd
df = pd.read_csv('data.csv') # 从 CSV 文件中读取数据
na_count = df.isna().sum().sum() # 计算缺失值的数量
print(f'缺失值的数量为:{na_count}')
返回结果示例:
缺失值的数量为:1234
使用 isna() 函数可以快速计算出 DataFrame 中所有缺失值的数量,但是如果数据量较大的时候,计算时间会比较长,不是很适合大规模数据的计算。
另外,我们也可以使用 pandas.DataFrame.count() 函数来计算 DataFrame 中非缺失值的数量,然后用总数量减去非缺失值的数量就可以得到缺失值的数量了。
import pandas as pd
df = pd.read_csv('data.csv') # 从 CSV 文件中读取数据
na_count = df.shape[0] * df.shape[1] - df.count().sum() # 计算缺失值的数量
print(f'缺失值的数量为:{na_count}')
返回结果示例:
缺失值的数量为:1234
使用 count() 函数的优势在于运算速度较快,适用于大规模数据的计算。
在 Pandas 中,我们有多种方法来计算 DataFrame 中缺失值的数量,这里介绍了两种常见的方法。使用这些函数可以方便地计算缺失值的数量,从而更好地处理缺失数据。