📅  最后修改于: 2023-12-03 15:19:54.191000             🧑  作者: Mango
R语言是一种广泛使用的统计计算语言,其中包含了各种各样的数据分析工具。其中之一就是线性回归。
线性回归是一种用于研究两种变量之间关系的统计分析方法。其中一个变量称为自变量,另一个变量称为因变量。通过给定的自变量和因变量数据建立一个预测因变量的数学模型。该模型为线性回归模型。
在 R 中,通过使用 lm()
函数可以实现线性回归。
在这个例子中,我们将用到一个来自于 datasets
包的数据集 mtcars
。该数据集包含了一组汽车的相关信息和一些性能指标。
data(mtcars)
head(mtcars)
在单变量线性回归中,我们只使用一个自变量来预测因变量。下面是使用 lm()
函数实现单变量线性回归的代码:
## 自变量为马力,因变量为汽车加速度
model <- lm(mpg ~ hp, data = mtcars)
其中 mpg
是因变量,hp
是自变量,data
参数指定使用的数据集。
在多变量线性回归中,我们使用多个自变量来预测因变量。下面是使用 lm()
函数实现多变量线性回归的代码:
## 自变量为马力和重量,因变量为汽车加速度
model <- lm(mpg ~ hp + wt, data = mtcars)
其中 mpg
是因变量,hp
和 wt
是自变量,data
参数指定使用的数据集。
通过 summary()
函数可以输出关于模型的相关信息,包括回归系数、误差、置信区间等:
summary(model)
在获得了线性回归模型后,我们可以用它来预测新的数据。下面是使用 predict()
函数实现预测的代码:
## 预测马力为 150、重量为 3.5 的汽车的加速度
new_data <- data.frame(hp = 150, wt = 3.5)
predict(model, new_data)
预测结果为 16.15418。
使用 ggplot2
包可以很方便地对结果进行可视化。下面是一个将自变量和因变量的关系以及回归线展示在散点图上的代码:
library(ggplot2)
ggplot(mtcars, aes(x = hp, y = mpg)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE)
这篇文章介绍了 R 语言中线性回归的基础知识,并且通过一个简单的例子演示了如何使用 lm()
函数实现线性回归,评估模型,预测新数据,可视化等。