📜  火花数据框添加具有功能的列 (1)

📅  最后修改于: 2023-12-03 15:40:48.201000             🧑  作者: Mango

在火花数据框中添加具有功能的列

在数据分析过程中,有时需要根据现有的数据计算出新的指标来更好地理解和分析数据。在火花数据框中,我们可以使用 mutate() 函数添加具有功能的列。

准备数据

在开始之前,我们需要先准备一些数据。以下是一个包含学生姓名、性别、年龄和成绩的数据集:

library(tidyverse)

students <- tibble(
  name = c("John", "Jane", "Alice", "Bob", "Tom"),
  gender = c("M", "F", "F", "M", "M"),
  age = c(18, 21, 20, 19, 22),
  score = c(85, 90, 75, 80, 95)
)
添加具有功能的列

假设我们想给每个学生的成绩加上一个加分项,该加分项与学生年龄和性别有关。我们可以使用 mutate() 函数来添加一个新的列 new_score

students <- students %>% 
  mutate(new_score = if_else(gender == "M", score + age, score - age))

在上面的代码中,我们使用 if_else() 函数根据学生的性别来计算加分项。对于男生,我们将其成绩加上年龄;对于女生,我们将其成绩减去年龄。最后,我们将计算得出的结果存储在名为 new_score 的新列中。

运行结果

运行上面的代码后,我们可以得到以下新的数据集:

# A tibble: 5 x 5
  name  gender   age score new_score
  <chr> <chr>  <dbl> <dbl>     <dbl>
1 John  M         18    85       103
2 Jane  F         21    90        69
3 Alice F         20    75        55
4 Bob   M         19    80        99
5 Tom   M         22    95       117

可以看到,每个学生现在都有一个新的成绩 new_score,它是根据学生的性别和年龄计算出来的。这个新的列可以帮助我们更好地理解和分析数据。

总结

在使用火花数据框进行数据分析时,我们可以使用 mutate() 函数来添加具有功能的列。通过计算并存储新的指标,可以帮助我们更好地理解和分析数据。