📌  相关文章
📜  如何使用Python将数据集拆分为训练集和测试集

📅  最后修改于: 2022-05-13 01:55:32.088000             🧑  作者: Mango

如何使用Python将数据集拆分为训练集和测试集

在本文中,我们将讨论如何在Python中将数据集拆分为训练集和测试集。

训练测试拆分用于估计适用于基于预测的算法/应用程序的机器学习算法的性能。这种方法是一种快速且易于执行的过程,因此我们可以将我们自己的机器学习模型结果与机器结果进行比较。默认情况下,测试集被分成 30% 的实际数据,训练集被分成 70% 的实际数据

我们需要将数据集拆分为训练集和测试集,以评估我们的机器学习模型的执行情况。训练集用于拟合模型,训练集的统计数据是已知的。第二组称为测试数据集,该集仅用于预测。

数据集拆分:

Scikit-learn 别名 sklearn 是Python中最有用和最强大的机器学习库。

scikit-learn 库为我们提供了 model_selection 模块,其中我们有拆分器函数train_test_split()。

语法

例子:

要查看或下载示例中使用的 CSV 文件,请单击此处。

代码

Python3
# import modules
import pandas as pd
from sklearn.linear_model import LinearRegression
 
# read the dataset
df = pd.read_csv('Real estate.csv')
 
# get the locations
X = df.iloc[:, :-1]
y = df.iloc[:, -1]
 
# split the dataset
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.05, random_state=0)


在上面的例子中,我们导入了 pandas 包和 sklearn 包。之后导入 CSV 文件,我们使用 read_csv() 方法。变量 df 现在包含数据框。在示例中,“房价”是我们要预测的列,因此我们将该列作为 y,将其余列作为 X 变量。 test_size = 0.05 指定仅将整个数据的 5% 作为我们的测试集,将 95% 作为我们的训练集。随机状态帮助我们每次都得到相同的随机分割。

输出