📌  相关文章
📜  训练测试拆分 - Python (1)

📅  最后修改于: 2023-12-03 14:57:38.076000             🧑  作者: Mango

训练测试拆分 - Python

在机器学习中,我们需要使用训练集和测试集来评估我们的模型。训练集用于构建模型,测试集用于评估模型的性能。本文将介绍如何在 Python 中进行训练测试拆分。

导入数据集

首先,我们需要导入数据集。我们将使用 scikit-learn 库中的 iris 数据集作为示例。

from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target

在这里,load_iris() 负责导入数据集,然后我们将数据集分成输入和输出。X 将包含我们的输入特征,y 将包含我们的输出标签。

训练测试拆分

接下来,我们将使用 train_test_split() 函数将数据集分成训练集和测试集。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

这里,train_test_split() 函数负责将数据集分成训练集和测试集。test_size 参数用于指定测试集所占比例,我们这里将测试集设置为总数据集的 20%。random_state 参数用于指定随机种子,该参数的作用是保证每次运行代码时都得到相同的输出结果。

完整代码

以下是完整的代码:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
总结

在本文中,我们介绍了如何使用 Python 进行训练测试拆分。使用 train_test_split() 函数可以快速轻松地将数据集分成训练集和测试集,以评估我们的机器学习模型性能。