📅  最后修改于: 2023-12-03 15:05:05.344000             🧑  作者: Mango
scikit-learn是一个用于机器学习的优秀工具箱。scikit-learn可以轻松地处理数据集并从中训练模型。但是,在训练模型之前,需要将数据集分成训练集和测试集。本文将介绍在scikit-learn中如何拆分数据集。
from sklearn.model_selection import train_test_split
首先,我们需要有一个数据集。这里我们使用一个例子,数据集包含100个样本,每个样本有10个特征,并且有一个二元分类标签。
import numpy as np
X = np.random.rand(100, 10)
y = np.random.randint(0, 2, size=100)
接下来,我们可以使用train_test_split函数将数据集分成训练和测试集。train_test_split函数需要输入特征矩阵和标签向量,然后可以选择测试集大小和随机种子。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
在这个例子中,我们选择了一个测试集大小为20%,随机种子为42。
现在,我们成功地将数据集拆分为训练集和测试集。train_test_split函数为我们处理了所有的事情,使得我们可以轻松地进行机器学习模型的训练。