📜  skitlearn 决策树 - Python (1)

📅  最后修改于: 2023-12-03 15:20:09.245000             🧑  作者: Mango

介绍sklearn决策树

sklearn是Python的一个机器学习库,它的决策树模块提供了决策树算法的实现。 在本指南中,我们将介绍如何使用sklearn创建和训练决策树模型,并对测试数据进行预测。

安装sklearn

在开始之前必须先安装sklearn,可以通过以下命令来安装:

pip install sklearn
加载数据

首先,我们需要加载数据以训练和测试我们的模型。 为了演示决策树,我们将使用鸢尾花数据集。 这个数据集包含150个样本,每个样本有4个特征: 萼片长度,萼片宽度,花瓣长度和花瓣宽度。根据花的品种,标记为3类:Setosa,Versicolor和Virginica。 数据集是在sklearn内置的,可以直接使用它。

下面是我们加载数据的代码:

from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target
拆分数据集

现在,我们需要拆分我们的数据集以便有一部分用于训练我们的模型,另一部分用于测试。在本例中,我们将使用80%的数据用于训练和20%的数据用于测试。

以下是拆分数据集的代码:

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
训练模型

现在,我们将使用决策树算法来训练我们的模型。 sklearn中提供了DecisionTreeClassifier模块,我们可以使用它来训练我们的模型。 以下是我们训练模型的代码:

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
预测

现在,我们已经训练好了我们的模型,可以使用测试集数据来预测样本的标记。 我们将使用sklearn中的predict()函数来执行这个任务。 以下是预测的代码:

y_pred = clf.predict(X_test)
评估模型

最后,我们需要评估我们的模型在测试集数据上的性能。 在本例中,我们将使用accuracy_score()函数来计算模型的精度。 以下是评估模型的代码:

from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)
总结

在本指南中,我们介绍了如何使用sklearn来创建和训练决策树模型,并对测试数据进行预测。 我们还学习了如何评估我们的模型在测试集上的性能。 为了更好地了解sklearn的决策树算法,请参阅sklearn的官方文档。