📅  最后修改于: 2023-12-03 15:38:06.048000             🧑  作者: Mango
当你要对机器学习算法进行训练和测试时,你需要将数据集分成两个部分:训练集和测试集。Scikit-learn Python库提供了一种简单的方法来分发数据集。
首先让我们导入scikit-learn库以及其他所需的库。对于这个例子,我们将使用鸢尾花数据集。
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
我们使用sklearn提供的鸢尾花数据集。这个数据集包含了3种不同的鸢花(山鸢尾,变色鸢尾和维吉尼亚鸢尾)的4种特征。
iris = load_iris()
X = iris.data
y = iris.target
我们将使用train_test_split函数来分发数据集。它允许我们设置测试集的大小,并对数据集进行随机分发。 我们将数据集的大小设置为30%,并使用随机数种子来确保我们每次运行代码时都获得相同的结果。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
现在我们有了训练集和测试集,让我们使用一个简单的模型进行训练并测试模型的准确性。
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
print("Test set score: {:.2f}".format(knn.score(X_test, y_test)))
输出为:
Test set score: 0.98
这说明我们的模型在测试集上的准确性约为98%。
在这个教程中,我们学习了如何使用scikit-learn库来分发数据集以进行训练和测试。随着你进一步学习机器学习,你将学习更多关于为算法提供最佳数据集的技术。
## 总结
在这个教程中,我们学习了如何使用scikit-learn库来分发数据集以进行训练和测试。随着你进一步学习机器学习,你将学习更多关于为算法提供最佳数据集的技术。