📅  最后修改于: 2023-12-03 14:57:38.076000             🧑  作者: Mango
在机器学习中,我们需要使用训练集和测试集来评估我们的模型。训练集用于构建模型,测试集用于评估模型的性能。本文将介绍如何在 Python 中进行训练测试拆分。
首先,我们需要导入数据集。我们将使用 scikit-learn 库中的 iris 数据集作为示例。
from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target
在这里,load_iris()
负责导入数据集,然后我们将数据集分成输入和输出。X
将包含我们的输入特征,y
将包含我们的输出标签。
接下来,我们将使用 train_test_split()
函数将数据集分成训练集和测试集。
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
这里,train_test_split()
函数负责将数据集分成训练集和测试集。test_size
参数用于指定测试集所占比例,我们这里将测试集设置为总数据集的 20%。random_state
参数用于指定随机种子,该参数的作用是保证每次运行代码时都得到相同的输出结果。
以下是完整的代码:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
在本文中,我们介绍了如何使用 Python 进行训练测试拆分。使用 train_test_split()
函数可以快速轻松地将数据集分成训练集和测试集,以评估我们的机器学习模型性能。