用于测试和训练拆分的代码 - Python (1) - 芒果文档

📌 相关文章

📜 用于测试和训练拆分的代码 - Python (1)

📅 最后修改于: 2023-12-03 14:56:21.801000 🧑 作者: Mango

用于测试和训练拆分的代码 - Python

在机器学习中，我们需要将我们的数据集拆分成训练数据集和测试数据集。这是为了使用我们的训练数据集来训练我们的模型，并使用我们的测试数据集来评估模型在新数据上的性能。在Python中，我们可以使用scikit-learn库中的train_test_split函数来拆分我们的数据集。

导入必要的库

首先，我们需要导入我们需要使用的库。除了scikit-learn库之外，我们还需要用到numpy库。

import numpy as np
from sklearn.model_selection import train_test_split

数据准备

现在我们需要准备一组数据来分割。这里我们将使用scikit-learn中包含的鸢尾花数据集。我们将加载数据集，并将它们分成我们的特征和标签。

from sklearn.datasets import load_iris

iris = load_iris()
X, y = iris.data, iris.target

拆分数据集

使用train_test_split函数，我们可以轻松地拆分我们的数据集。我们可以指定我们要分割的特征和标签，以及我们要拆分的训练和测试数据集的大小。在下面的代码示例中，我们将把数据集拆分成70%的训练数据集和30%的测试数据集。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

结论

现在我们已经成功地将我们的数据集拆分成训练和测试数据集了。我们可以使用X_train和y_train来训练我们的模型，并使用X_test和y_test来评估我们的模型在新数据上的性能。

拆分数据集是机器学习中的一个关键步骤。它允许我们使用我们的训练数据集来训练我们的模型，并使用我们的测试数据集来评估它在新数据上的性能。在Python中，我们使用train_test_split函数来轻松地拆分我们的数据集。