📅  最后修改于: 2023-12-03 15:07:15.304000             🧑  作者: Mango
数据清洗是数据分析的重要步骤之一,而在进行数据清洗时,常常会遇到重复数据的情况。在 R 语言中,我们可以利用函数来删除数据框中的重复值。
在 R 中,我们可以使用 distinct()
函数来删除数据框中的重复值。该函数的基本语法如下:
distinct(data, ...)
data
:要去重的数据框。...
:指定去重时需要考虑的列名。下面我们通过一个示例来演示如何使用 distinct()
函数删除数据框中的重复值。
假设我们有一个名为 students
的数据框,保存着学生信息:
| id | name | age | gender | score | |----|------|-----|--------|-------| | 1 | 小明 | 20 | 男 | 80 | | 2 | 小红 | 19 | 女 | 85 | | 3 | 小刚 | 21 | 男 | 90 | | 4 | 小李 | 20 | 男 | 75 | | 1 | 小明 | 20 | 男 | 80 |
我们可以使用以下代码来删除重复值:
# 加载数据框
students <- data.frame(
id = c(1, 2, 3, 4, 1),
name = c("小明", "小红", "小刚", "小李", "小明"),
age = c(20, 19, 21, 20, 20),
gender = c("男", "女", "男", "男", "男"),
score = c(80, 85, 90, 75, 80)
)
# 删除重复值
distinct(students)
运行结果如下:
id name age gender score
1 1 小明 20 男 80
2 2 小红 19 女 85
3 3 小刚 21 男 90
4 4 小李 20 男 75
我们可以看到,结果数据框中只保留了不重复的记录。