📅  最后修改于: 2023-12-03 15:04:46.013000             🧑  作者: Mango
标准差是衡量数据集合中每个样本与样本均值之差的平方的平均值的一种度量单位。它是基于所研究的数据集合的分布程度而定的。标准差是一种能够反映出数据分布的离散程度的度量单位,在统计学中被广泛地运用。
在 R 编程语言中,我们可以使用 sd()
函数来计算标准差。这个函数默认情况下的使用方式是计算样本标准差,如果想使用总体标准差的话,则需要将 na.rm = TRUE
参数设置为 True。
# 计算向量 v 的样本标准差
v <- c(1, 2, 3, 4, 5)
sd(v)
# 输出结果为 1.581139
# 计算向量 v 的总体标准差
sd(v, na.rm = TRUE)
# 输出结果为 1.414214
如果需要计算某一列的标准差,而这列在数据框中,我们可以使用 apply()
函数,并设置 MARGIN = 2
来表示按列计算。同时我们也可以使用 na.rm = TRUE
参数来忽略掉含有 NA
值的数据。
# 创建示例数据框 df
df <- data.frame(
'A' = c(1, 2, 3, 4, 5),
'B' = c(6, 7, 8, 9, 10),
'C' = c(NA, 2, 3, 4, 5)
)
# 计算数据框 df 中所有列的样本标准差
apply(df, 2, sd, na.rm = TRUE)
# 输出结果为 c(1.581139, 1.581139, 1.290994)
需要注意的是,在进行标准差的计算时,数据集合必须是数值型的。如果要计算非数值型的数据集的标准差,需进行特殊处理。