📅  最后修改于: 2023-12-03 14:47:42.405000             🧑  作者: Mango
随机森林是一种基于多个决策树构成的算法,可以在分类和回归任务中应用。每个决策树由一组特征组成,并且通过随机采样训练集和特征以减少过拟合的风险。最终的预测结果基于所有决策树的平均结果得出。
通过pip安装sklearn模块即可使用随机森林:
pip install -U scikit-learn
首先,我们需要导入需要的库:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
接着,我们需要构建数据集:
X, y = make_classification(n_samples=1000, n_features=4,
n_informative=2, n_redundant=0,
random_state=0, shuffle=False)
其中X
表示特征,y
表示标签。
为了测试我们的模型,我们需要将数据集拆分为训练集和测试集:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
clf = RandomForestClassifier(max_depth=2, random_state=0)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
我们可以使用accuracy_score
函数评估预测结果的准确度:
accuracy = accuracy_score(y_test, y_pred)
随机森林是一种强大的机器学习算法,可以在分类和回归任务中使用。它通过随机采样和特征选择来减少过拟合的风险,并产生高质量的预测结果。