📌  相关文章
📜  如何在R中的数据框中找到缺失值的百分比?

📅  最后修改于: 2022-05-13 01:54:25.049000             🧑  作者: Mango

如何在R中的数据框中找到缺失值的百分比?

在本文中,让我们讨论如何在 R 编程语言中查找缺失值 (NA) 的百分比。 NAs 的百分比表示未由明确单元格值定义的数据单元格的比例。 NA 值的百分比可以使用以下公式计算:

方法一:使用R中内置的dim()函数的乘积可以求出单元格的总数,该函数返回两个值,每个值分别表示行数和列数。

可以分别使用 R 中的 sum() 和 is.na() 函数计算具有 NA 值的单元格数量。以下代码片段首先评估每个数据单元格值,如果存在缺失值则返回逻辑值 true,否则返回 false。然后,使用 sum()函数完成这些 NA 值的总和。

sum(is.na(data_frame))
R
# declaring a data frame in R
data_frame = data.frame(C1= c(1, 2, NA, 0),
                        C2= c( NA, NA, 3, 8),
                        C3= c("A", "V", "j", "y"))
  
print("Original data frame")
print(data_frame)
  
# calculating the product of dimensions of dataframe 
totalcells = prod(dim(data_frame))
print("Total number of cells ")
print(totalcells)
  
# calculating the number of cells with na
missingcells = sum(is.na(data_frame))
print("Missing value cells")
print(missingcells)
  
# calculating percentage of missing values
percentage = (missingcells * 100 )/(totalcells)
print("Percentage of missing values' cells")
print (percentage)


R
# declaring a data frame in R
data_frame = data.frame(C1= c(1, 2, NA, 0),
                        C2= c( NA, NA, 3, 8), 
                        C3= c("A", "V", "j", "y"),
                        C4=c(NA,NA,NA,NA))
  
print("Original data frame")
print(data_frame)
  
# calculating percentage of missing values
percentage = mean(is.na(data_frame)) * 100
print ("percentage of missing values")
print (percentage)


输出

[1] "Original data frame"
 C1 C2 C3
1  1 NA  A
2  2 NA  V
3 NA  3  j
4  0  8  y
[1] "Total number of cells "
[1] 12
[1] "Missing value cells"
[1] 3
[1] "Percentage of missing values' cells"
[1] 25

方法二:我们可以简单地使用R中的mean()函数,将缺失的单元格按单元格总数进行划分。 is.na()函数首先用于确定数据单元格值是真还是假,然后对其应用 mean() 方法。所需的时间复杂度是关于数据帧大小的多项式,因为每个数据单元值都被评估。

电阻

# declaring a data frame in R
data_frame = data.frame(C1= c(1, 2, NA, 0),
                        C2= c( NA, NA, 3, 8), 
                        C3= c("A", "V", "j", "y"),
                        C4=c(NA,NA,NA,NA))
  
print("Original data frame")
print(data_frame)
  
# calculating percentage of missing values
percentage = mean(is.na(data_frame)) * 100
print ("percentage of missing values")
print (percentage)

输出

[1] "Original data frame"
 C1 C2 C3 C4
1  1 NA  A NA
2  2 NA  V NA
3 NA  3  j NA
4  0  8  y NA
[1] "percentage of missing values"
[1] 43.75