📜  R 编程中的描述性分析(1)

📅  最后修改于: 2023-12-03 15:04:46.213000             🧑  作者: Mango

R 编程中的描述性分析

介绍

R 是一种流行的统计分析软件,可用于各种类型的数据分析。R 有一个简单易用的语法,并且常常作为许多领域的首选统计工具。描述性分析是一种常见的统计方法,用于概述数据集的中心趋势、离群值和分布情况。在这篇文章中,我们将介绍在 R 中进行描述性分析的方法。

数据集

我们将使用名为 "mtcars" 的数据集,该数据集包含 32 辆不同型号的汽车的一些性能和特征数据。

# 导入数据集
mtcars <- datasets::mtcars

# 查看前 6 行数据
head(mtcars)

输出:

                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
中心趋势

描述性统计方法中最常见的一种是中心趋势度量。中心趋势度量可帮助我们了解数据的平均值、中位数和众数。

平均值

计算平均值的最常用方法是使用 mean() 函数。

# 计算全局平均值
mean(mtcars$mpg)

输出:

[1] 20.09062
中位数

中位数是按升序排列后的中间值。

# 计算中位数
median(mtcars$mpg)

输出:

[1] 19.2
众数

众数是数据集中最常出现的值。

# 计算众数
names(sort(-table(mtcars$gear)))[1]

输出:

[1] "3"
离群值

离群值是指在数据集中偏离常见趋势的单个或多个观察结果。常用的方法包括使用箱线图和散点图。

箱线图

箱线图是一种可视化方法,用于显示数据分布以及可能存在的离群值。

# 生成箱线图
boxplot(mtcars$mpg, main = "Boxplot of mpg")

输出:

散点图

散点图可以用于显示两个变量之间的关系,并帮助识别离群值。我们将通过 mpg 和 wt 之间的散点图来演示。

# 生成散点图
plot(mtcars$wt, mtcars$mpg, main = "Scatterplot of wt vs. mpg", xlab = "Weight", ylab = "Miles per gallon")
abline(lm(mtcars$mpg ~ mtcars$wt), col = "red") # 添加线性回归线

输出:

分布情况

在描述性分析中,常常需要了解数据集的分布情况。这可以通过频率表、直方图和密度图来实现。

频率表

频率表列出了每个数据值出现的次数。

# 生成频率表
table(mtcars$gear)

输出:

 3  4  5 
15 12  5 
直方图

直方图是一种可视化方法,用于显示数值变量的分布情况。

# 生成直方图
hist(mtcars$mpg, main = "Histogram of mpg", xlab = "Miles per gallon")

输出:

密度图

密度图与直方图类似,但它对数据进行光滑,并显示数据集更平滑的变化。

# 生成密度图
plot(density(mtcars$mpg), main = "Density Plot of mpg", xlab = "Miles per gallon")

输出:

统计量

统计量是从数据集中提取的度量,可用于衡量其特征。常用的统计量包括标准差、方差和协方差等。

标准差和方差

标准差和方差是用来描述数据集离平均值的距离的方法。标准差是方差的平方根。

# 计算标准差和方差
sd(mtcars$mpg)
var(mtcars$mpg)

输出:

[1] 6.026948
[1] 36.3241
协方差

协方差是用来衡量两个变量之间的关系的方法。协方差为正表示变量呈正相关,反之则呈负相关。

# 计算 hp 和 wt 之间的协方差
cov(mtcars$hp, mtcars$wt)

输出:

[1] 0.6811728
总结

在本文中,我们介绍了如何在 R 中进行描述性分析。我们学习了中心趋势、离群值和分布情况等方面的概念和方法,并使用了数据集 "mtcars" 来示范这些技术和技巧。我们希望本文能够帮助您掌握 R 编程中的描述性分析方法,并且在工作中更好地使用这些方法。