📜  train_ttest_split() - Python (1)

📅  最后修改于: 2023-12-03 15:05:37.474000             🧑  作者: Mango

train_test_split() - Python

train_test_split()是Python中一种用于切分数据集为训练集和测试集的函数。该函数可以从特定的数据集中按照指定的比例随机选择一部分数据作为训练数据集,其余的部分则作为测试数据集。这个方法有助于评估机器学习模型的性能和泛化能力。

语法
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
参数说明
  • X (array-like):特征数据集
  • y (array-like):标签数据集
  • test_size (float or int, optional):测试集比例,如果为整数,就是测试样例的数量。
  • random_state (int, RandomState instance or None, optional):默认以当前时间为随机种子生成随机数。 如果传入数字,则每次产生的随机数都相同。
返回值

该函数返回四个数组,分别为:

  • X_train:训练数据集特征
  • X_test:测试数据集特征
  • y_train:训练数据集标签
  • y_test:测试数据集标签
用例
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

data = pd.read_csv('data.csv')
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

lr = LinearRegression().fit(X_train, y_train)
predict = lr.predict(X_test)
score = lr.score(X_test, y_test)
上手指南
  1. 导入相应的库
  2. 加载数据集
  3. 切分数据集
  4. 构建模型并拟合数据
  5. 使用测试集进行评估
总结

train_test_split()函数是Python中切分数据集的重要方法之一,对于机器学习模型的评估和泛化能力的提升非常有帮助。使用该方法能够快速切分数据集并使用不同的比例来测试模型的性能。