📅  最后修改于: 2023-12-03 15:40:48.201000             🧑  作者: Mango
在数据分析过程中,有时需要根据现有的数据计算出新的指标来更好地理解和分析数据。在火花数据框中,我们可以使用 mutate()
函数添加具有功能的列。
在开始之前,我们需要先准备一些数据。以下是一个包含学生姓名、性别、年龄和成绩的数据集:
library(tidyverse)
students <- tibble(
name = c("John", "Jane", "Alice", "Bob", "Tom"),
gender = c("M", "F", "F", "M", "M"),
age = c(18, 21, 20, 19, 22),
score = c(85, 90, 75, 80, 95)
)
假设我们想给每个学生的成绩加上一个加分项,该加分项与学生年龄和性别有关。我们可以使用 mutate()
函数来添加一个新的列 new_score
:
students <- students %>%
mutate(new_score = if_else(gender == "M", score + age, score - age))
在上面的代码中,我们使用 if_else()
函数根据学生的性别来计算加分项。对于男生,我们将其成绩加上年龄;对于女生,我们将其成绩减去年龄。最后,我们将计算得出的结果存储在名为 new_score
的新列中。
运行上面的代码后,我们可以得到以下新的数据集:
# A tibble: 5 x 5
name gender age score new_score
<chr> <chr> <dbl> <dbl> <dbl>
1 John M 18 85 103
2 Jane F 21 90 69
3 Alice F 20 75 55
4 Bob M 19 80 99
5 Tom M 22 95 117
可以看到,每个学生现在都有一个新的成绩 new_score
,它是根据学生的性别和年龄计算出来的。这个新的列可以帮助我们更好地理解和分析数据。
在使用火花数据框进行数据分析时,我们可以使用 mutate()
函数来添加具有功能的列。通过计算并存储新的指标,可以帮助我们更好地理解和分析数据。