📅  最后修改于: 2023-12-03 15:05:37.474000             🧑  作者: Mango
train_test_split()
是Python中一种用于切分数据集为训练集和测试集的函数。该函数可以从特定的数据集中按照指定的比例随机选择一部分数据作为训练数据集,其余的部分则作为测试数据集。这个方法有助于评估机器学习模型的性能和泛化能力。
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
该函数返回四个数组,分别为:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
data = pd.read_csv('data.csv')
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
lr = LinearRegression().fit(X_train, y_train)
predict = lr.predict(X_test)
score = lr.score(X_test, y_test)
train_test_split()
函数是Python中切分数据集的重要方法之一,对于机器学习模型的评估和泛化能力的提升非常有帮助。使用该方法能够快速切分数据集并使用不同的比例来测试模型的性能。