📜  r count distinct dply - R 编程语言(1)

📅  最后修改于: 2023-12-03 15:19:39.808000             🧑  作者: Mango

R 编程语言: 计算在 dplyr 中的去重数和计数

在 R 的 dplyr 包中,可以使用 count 和 distinct 函数计算去重数和计数。distinct 函数会根据指定列返回去重后的数据,而 count 函数会根据指定列返回每个组的数目。

去重数(distinct)
语法:
distinct(data, col_name)
参数说明:
  • data: 输入数据表。
  • col_name: 需要去重的列名称。
示例:
library(dplyr)

data <- data.frame(
    id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10),
    name = c("小明", "小红", "小红", "小李", "小李", "小张", "小张", "小张", "小丽", "小丽"),
    gender = c("男", "女", "女", "男", "男", "女", "女", "女", "女", "女")
)

distinct_data <- distinct(data, name)

print(distinct_data)

输出:

  id name gender
1  1  小明      男
2  2  小红      女
4  4  小李      男
6  6  小张      女
9  9  小丽      女

在上面的代码中,我们创建了一个包含 id、name 和 gender 列的数据表。然后我们使用 distinct 函数来获取去重后的 name 列数据。最后打印输出结果。

统计数(count)
语法:
count(data, col_name)
参数说明:
  • data: 输入数据表。
  • col_name: 需要统计的列名称。
示例:
library(dplyr)

data <- data.frame(
    id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10),
    name = c("小明", "小红", "小红", "小李", "小李", "小张", "小张", "小张", "小丽", "小丽"),
    gender = c("男", "女", "女", "男", "男", "女", "女", "女", "女", "女")
)

count_data <- count(data, name)

print(count_data)

输出:

  name n
1  小丽 2
2  小明 1
3  小李 2
4  小红 2
5  小张 3

在上面的代码中,我们创建了一个包含 id、name 和 gender 列的数据表。然后我们使用 count 函数来获取每个 name 列数据的出现次数。最后打印输出结果。

结语

如上所述,我们介绍了在 R 的 dplyr 包中如何使用 count 和 distinct 函数来计算去重数和计数。这些函数在数据清洗和处理中非常有用。