📅  最后修改于: 2023-12-03 15:05:37.462000             🧑  作者: Mango
在机器学习中,使用数据集进行训练和测试是非常常见的。通过将数据集划分为训练集和测试集,我们可以在训练集上训练模型,并在测试集上评估模型的性能。在Sklearn中,我们可以使用train_test_split函数来将数据集划分为训练集和测试集。
首先,我们需要导入train_test_split函数和我们要使用的数据集。假设我们有一个iris数据集,它包含150个样本和4个特征。
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
X = iris.data
y = iris.target
我们可以将数据集划分为训练集和测试集,比如将20%的数据集分配给测试集。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
在这里,我们将20%的数据分配给测试集,并将其余80%分配给训练集。train_test_split函数将数据集划分为四个数组:X_train,X_test,y_train和y_test,分别包含训练特征,测试特征,训练标签和测试标签。可以看到,train_test_split函数非常容易使用,并且可以轻松地将数据集划分为训练集和测试集。
为了验证我们的拆分是否正确,我们可以使用以下代码:
print("训练集样本数:", X_train.shape[0])
print("测试集样本数:", X_test.shape[0])
此代码输出的结果应如下所示:
训练集样本数: 120
测试集样本数: 30
这表明我们有120个训练样本和30个测试样本,测试集实际上占总数据集的20%。