📜  scikit learn 拆分数据集 site:stackoverflow.com - Python (1)

📅  最后修改于: 2023-12-03 15:05:05.344000             🧑  作者: Mango

scikit-learn数据集拆分

scikit-learn是一个用于机器学习的优秀工具箱。scikit-learn可以轻松地处理数据集并从中训练模型。但是,在训练模型之前,需要将数据集分成训练集和测试集。本文将介绍在scikit-learn中如何拆分数据集。

引入必要的库
from sklearn.model_selection import train_test_split
准备数据集

首先,我们需要有一个数据集。这里我们使用一个例子,数据集包含100个样本,每个样本有10个特征,并且有一个二元分类标签。

import numpy as np

X = np.random.rand(100, 10)
y = np.random.randint(0, 2, size=100)
拆分数据集

接下来,我们可以使用train_test_split函数将数据集分成训练和测试集。train_test_split函数需要输入特征矩阵和标签向量,然后可以选择测试集大小和随机种子。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

在这个例子中,我们选择了一个测试集大小为20%,随机种子为42。

结论

现在,我们成功地将数据集拆分为训练集和测试集。train_test_split函数为我们处理了所有的事情,使得我们可以轻松地进行机器学习模型的训练。