📜  stackoverflow python 随机森林 - Python (1)

📅  最后修改于: 2023-12-03 14:47:42.405000             🧑  作者: Mango

随机森林入门指南

概述

随机森林是一种基于多个决策树构成的算法,可以在分类和回归任务中应用。每个决策树由一组特征组成,并且通过随机采样训练集和特征以减少过拟合的风险。最终的预测结果基于所有决策树的平均结果得出。

安装

通过pip安装sklearn模块即可使用随机森林:

pip install -U scikit-learn
用法
导入库

首先,我们需要导入需要的库:

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
构建数据集

接着,我们需要构建数据集:

X, y = make_classification(n_samples=1000, n_features=4,
                            n_informative=2, n_redundant=0,
                            random_state=0, shuffle=False)

其中X表示特征,y表示标签。

切分数据集

为了测试我们的模型,我们需要将数据集拆分为训练集和测试集:

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
训练模型
clf = RandomForestClassifier(max_depth=2, random_state=0)
clf.fit(X_train, y_train)
预测结果
y_pred = clf.predict(X_test)
评估

我们可以使用accuracy_score函数评估预测结果的准确度:

accuracy = accuracy_score(y_test, y_pred)
结论

随机森林是一种强大的机器学习算法,可以在分类和回归任务中使用。它通过随机采样和特征选择来减少过拟合的风险,并产生高质量的预测结果。