📅  最后修改于: 2023-12-03 15:19:39.808000             🧑  作者: Mango
在 R 的 dplyr 包中,可以使用 count 和 distinct 函数计算去重数和计数。distinct 函数会根据指定列返回去重后的数据,而 count 函数会根据指定列返回每个组的数目。
distinct(data, col_name)
library(dplyr)
data <- data.frame(
id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10),
name = c("小明", "小红", "小红", "小李", "小李", "小张", "小张", "小张", "小丽", "小丽"),
gender = c("男", "女", "女", "男", "男", "女", "女", "女", "女", "女")
)
distinct_data <- distinct(data, name)
print(distinct_data)
id name gender
1 1 小明 男
2 2 小红 女
4 4 小李 男
6 6 小张 女
9 9 小丽 女
在上面的代码中,我们创建了一个包含 id、name 和 gender 列的数据表。然后我们使用 distinct 函数来获取去重后的 name 列数据。最后打印输出结果。
count(data, col_name)
library(dplyr)
data <- data.frame(
id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10),
name = c("小明", "小红", "小红", "小李", "小李", "小张", "小张", "小张", "小丽", "小丽"),
gender = c("男", "女", "女", "男", "男", "女", "女", "女", "女", "女")
)
count_data <- count(data, name)
print(count_data)
name n
1 小丽 2
2 小明 1
3 小李 2
4 小红 2
5 小张 3
在上面的代码中,我们创建了一个包含 id、name 和 gender 列的数据表。然后我们使用 count 函数来获取每个 name 列数据的出现次数。最后打印输出结果。
如上所述,我们介绍了在 R 的 dplyr 包中如何使用 count 和 distinct 函数来计算去重数和计数。这些函数在数据清洗和处理中非常有用。