📅  最后修改于: 2023-12-03 15:26:23.065000             🧑  作者: Mango
sklearn(即scikit-learn)是一个具有简单而高效的工具,用于数据挖掘和数据分析。它基于 NumPy、SciPy 和 matplotlib 库,可以用于分类、回归和聚类问题。本文将介绍如何更新 sklearn 的语法以及一些新的特性。
在更新之前,需要先安装 sklearn。可以使用 pip 命令安装它:
pip install -U scikit-learn
这会将 scikit-learn 更新到最新版本,即在编写本文时的 0.24.1 版本。
管道是 sklearn 中的一种新特性,它可以用于将多个步骤组合在一起,从而构建一个统一的预处理和建模流水线。管道使得代码更加简洁,同时也更容易进行参数调整和交叉验证。
例如,我们可以将 StandardScaler 和 LogisticRegression 组合在一起,来构建一个分类器:
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
pipe = make_pipeline(
StandardScaler(),
LogisticRegression()
)
这个管道首先对数据进行标准化,然后使用逻辑回归进行分类。我们可以使用管道的 fit 和 predict 方法对数据进行拟合和预测:
pipe.fit(X_train, y_train)
y_pred = pipe.predict(X_test)
ColumnTransformer 是 sklearn 中的另一个新特性,它可以用于将不同的特征选择器应用于不同的列。例如,我们可以将数值型特征和分类特征分别处理:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
ct = ColumnTransformer(
[('num', StandardScaler(), ['age', 'income']),
('cat', OneHotEncoder(), ['gender', 'marital_status'])])
这个 ColumnTransformer 对两列进行了不同的转换:StandardScaler 用于数值型特征,OneHotEncoder 用于分类特征。我们可以使用 ColumnTransformer 的 fit_transform 方法来将所有变换应用于数据:
X_transformed = ct.fit_transform(X)
GridSearchCV 是 sklearn 中的一个用于参数调整的类。在旧版的 sklearn 中,它只支持一个评价指标,因此在需要优化多个指标时,需要手动进行多次调用。在新版的 sklearn 中,可以通过设置 scoring 参数来支持多个评价指标:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer, precision_score, recall_score
param_grid = {'C': [0.1, 1, 10]}
scoring = {'precision': make_scorer(precision_score),
'recall': make_scorer(recall_score)}
grid = GridSearchCV(LogisticRegression(), param_grid=param_grid,
scoring=scoring)
这个 GridSearchCV 在优化过程中将同时优化精度和召回率两个指标。
本文介绍了 sklearn 中的一些新特性,包括管道、ColumnTransformer 和多指标 GridSearchCV。这些新特性使得 sklearn 的语法更加简洁和灵活,同时也更容易进行调试和优化。