📅  最后修改于: 2023-12-03 15:04:46.498000             🧑  作者: Mango
随机森林(Random Forest) 是一种 集成学习(Ensemble Learning) 的决策树模型。其基本思想是通过生产大量的决策树,并将各决策树的结果进行加权平均,来降低单棵决策树的过拟合风险,从而提高模型的泛化能力。
随机森林的基本流程:
在R中,我们可以使用随机森林算法进行分类(Classification)或回归(Regression)分析。通常我们需要安装randomForest包,并使用randomForest()函数来建模。
install.packages("randomForest")
使用随机森林建模,通常要设定以下几个参数:
下面是一个随机森林用于二分类的例子:
library(randomForest)
data(mtcars)
mtcars$am <- factor(mtcars$am,labels = c("auto", "manual"))
fit <- randomForest(am ~ mpg + hp + wt, data=mtcars,
ntree=1000, mtry=2, importance=TRUE)
print(fit)
# 输出结果
#
# Call:
# randomForest(formula = am ~ mpg + hp + wt, data = mtcars, ntree = 1000, mtry = 2, importance = TRUE)
# Type of random forest: classification
# Number of trees: 1000
# No. of variables tried at each split: 2
#
# OOB estimate of error rate: 9.38%
# Confusion matrix:
# auto manual class.error
# auto 16 3 0.15789474
# manual 3 10 0.23076923
上面的代码中,我们使用mtcars数据集,建立一个随机森林模型,将am作为因变量,mpg,hp,wt作为自变量。
以上是随机森林的介绍以及在R中如何使用随机森林的例子。随机森林是一种强大的机器学习算法,可以用于分类和回归分析,并且可以有效地避免过拟合的问题。在实际应用中,随机森林常常表现出色,是值得学习和使用的一种算法。