📅  最后修改于: 2023-12-03 15:04:46.213000             🧑  作者: Mango
R 是一种流行的统计分析软件,可用于各种类型的数据分析。R 有一个简单易用的语法,并且常常作为许多领域的首选统计工具。描述性分析是一种常见的统计方法,用于概述数据集的中心趋势、离群值和分布情况。在这篇文章中,我们将介绍在 R 中进行描述性分析的方法。
我们将使用名为 "mtcars" 的数据集,该数据集包含 32 辆不同型号的汽车的一些性能和特征数据。
# 导入数据集
mtcars <- datasets::mtcars
# 查看前 6 行数据
head(mtcars)
输出:
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
描述性统计方法中最常见的一种是中心趋势度量。中心趋势度量可帮助我们了解数据的平均值、中位数和众数。
计算平均值的最常用方法是使用 mean()
函数。
# 计算全局平均值
mean(mtcars$mpg)
输出:
[1] 20.09062
中位数是按升序排列后的中间值。
# 计算中位数
median(mtcars$mpg)
输出:
[1] 19.2
众数是数据集中最常出现的值。
# 计算众数
names(sort(-table(mtcars$gear)))[1]
输出:
[1] "3"
离群值是指在数据集中偏离常见趋势的单个或多个观察结果。常用的方法包括使用箱线图和散点图。
箱线图是一种可视化方法,用于显示数据分布以及可能存在的离群值。
# 生成箱线图
boxplot(mtcars$mpg, main = "Boxplot of mpg")
输出:
散点图可以用于显示两个变量之间的关系,并帮助识别离群值。我们将通过 mpg 和 wt 之间的散点图来演示。
# 生成散点图
plot(mtcars$wt, mtcars$mpg, main = "Scatterplot of wt vs. mpg", xlab = "Weight", ylab = "Miles per gallon")
abline(lm(mtcars$mpg ~ mtcars$wt), col = "red") # 添加线性回归线
输出:
在描述性分析中,常常需要了解数据集的分布情况。这可以通过频率表、直方图和密度图来实现。
频率表列出了每个数据值出现的次数。
# 生成频率表
table(mtcars$gear)
输出:
3 4 5
15 12 5
直方图是一种可视化方法,用于显示数值变量的分布情况。
# 生成直方图
hist(mtcars$mpg, main = "Histogram of mpg", xlab = "Miles per gallon")
输出:
密度图与直方图类似,但它对数据进行光滑,并显示数据集更平滑的变化。
# 生成密度图
plot(density(mtcars$mpg), main = "Density Plot of mpg", xlab = "Miles per gallon")
输出:
统计量是从数据集中提取的度量,可用于衡量其特征。常用的统计量包括标准差、方差和协方差等。
标准差和方差是用来描述数据集离平均值的距离的方法。标准差是方差的平方根。
# 计算标准差和方差
sd(mtcars$mpg)
var(mtcars$mpg)
输出:
[1] 6.026948
[1] 36.3241
协方差是用来衡量两个变量之间的关系的方法。协方差为正表示变量呈正相关,反之则呈负相关。
# 计算 hp 和 wt 之间的协方差
cov(mtcars$hp, mtcars$wt)
输出:
[1] 0.6811728
在本文中,我们介绍了如何在 R 中进行描述性分析。我们学习了中心趋势、离群值和分布情况等方面的概念和方法,并使用了数据集 "mtcars" 来示范这些技术和技巧。我们希望本文能够帮助您掌握 R 编程中的描述性分析方法,并且在工作中更好地使用这些方法。