📌  相关文章
📜  如何使用 scikit 在训练和测试中分发数据集 - Python (1)

📅  最后修改于: 2023-12-03 15:38:06.048000             🧑  作者: Mango

如何使用 scikit 在训练和测试中分发数据集 - Python

当你要对机器学习算法进行训练和测试时,你需要将数据集分成两个部分:训练集和测试集。Scikit-learn Python库提供了一种简单的方法来分发数据集。

导入库

首先让我们导入scikit-learn库以及其他所需的库。对于这个例子,我们将使用鸢尾花数据集。

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
上传数据

我们使用sklearn提供的鸢尾花数据集。这个数据集包含了3种不同的鸢花(山鸢尾,变色鸢尾和维吉尼亚鸢尾)的4种特征。

iris = load_iris()
X = iris.data
y = iris.target
分发数据集

我们将使用train_test_split函数来分发数据集。它允许我们设置测试集的大小,并对数据集进行随机分发。 我们将数据集的大小设置为30%,并使用随机数种子来确保我们每次运行代码时都获得相同的结果。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
训练和测试

现在我们有了训练集和测试集,让我们使用一个简单的模型进行训练并测试模型的准确性。

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
print("Test set score: {:.2f}".format(knn.score(X_test, y_test)))

输出为:

Test set score: 0.98

这说明我们的模型在测试集上的准确性约为98%。

总结

在这个教程中,我们学习了如何使用scikit-learn库来分发数据集以进行训练和测试。随着你进一步学习机器学习,你将学习更多关于为算法提供最佳数据集的技术。

## 总结

在这个教程中,我们学习了如何使用scikit-learn库来分发数据集以进行训练和测试。随着你进一步学习机器学习,你将学习更多关于为算法提供最佳数据集的技术。