在sklearn中提供了Pipeline(管道操作)

可以将多个estimators组装成一个。对于固定流程的一个项目来说,在一个Pipline中可以定义一些列的操作例如(特征提取,标准化,分类)并将它定义成一个estimator,实现便捷的代码附用。

总的来说pipline的意义有:

便捷:只需要使用fit和predict两个methods,就可以基于定义好的Pipeline对数据进行一系列的操作。这样的做法,方便了对超参的选择

安全:Pipeline 能够保证相同的样本被用于数据处理和预测

在Pipeline中,中间步骤必须是变换操作(transform),至少含有一个transform的method,最后的estimator可以是任意形式
pipeline的目的是组装一些列的操作,在cross-validated过程中,找到最好的超参。

调用方式

Pipeline(memory=None,steps=list)

memory: 默认为None 可以是str或者是joblib.Memory interface.
用于缓存fitted 好的transformers 默认情况下没有缓存。 如果给定字符串,那么该字符串是缓存地址。 给定缓存时,在fit之前复制transformers,因此在transformer的实例中不能被直接查到。可以用name_steps 或者 steps检查pipe中的estimators. 当fit耗时的时候,将transformer放在缓存中更有利。

list: 一系列的tuple(name,transform)在list中定义一些列的操作

可查的属性

named_steps : keys是step names 返还的值是设定的参数值

举个例子说明下用法

import numpy as np
import pandas as pd 
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import matplotlib as mpl
import matplotlib.pyplot as plt

## 设置字符集,防止中文乱码
mpl.rcParams['font.sans-serif']=[u'simHei']
mpl.rcParams['axes.unicode_minus']=False

# 定义目标函数
def l_model(x):
    params = np.arange(1,x.shape[-1]+3)
    y = np.sum(params[:-2]*x)+np.random.randn(1)*0.1+5*params[-2]*x[0]*x[1]+5*params[-1]*x[1]*x[2]
    return y

# 定义数据集
x = pd.DataFrame(np.random.rand(500,6))
y = x.apply(lambda x_rows:pd.Series(l_model(x_rows)),axis=1)

# 划分训练集和测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=2)

# 定义管道,在models中可以定义多个Pipeline
models = [
    Pipeline(memory=None,
            steps=[
            ('StandardScaler',StandardScaler()), #数据标准化
            ('Poly',PolynomialFeatures()), #多项式扩展
            ('LinearRegression',LinearRegression()), #线性回归
        ])
]
model = models[0]
print(model)

"""
Pipeline(memory=None,
     steps=[('StandardScaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('Poly', PolynomialFeatures(degree=2, include_bias=True, interaction_only=False)), ('LinearRegression', LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False))])
"""
# 定义要遍历的参数
t = np.arange(len(x_test))
N=4
scale_pool = [True,False]
degree_pool = np.arange(1,N,1)
regressor_pool = [True,False]
gsize = len(scale_pool)*len(degree_pool)*len(regressor_pool)

# 管道参数遍历训练模型
line_width=3
plt.figure(figsize=(12,15),facecolor='w')#创建一个绘图窗口,设置大小,设置颜色
ical = 1 
for i,s in enumerate(scale_pool):
    for j,d in enumerate(degree_pool):
        for k,r in enumerate(regressor_pool):
            plt.subplot(gsize,1,ical)
            plt.plot(t, y_test, 'r-', label=u'真实值')
            # 设置管道参数
            model.set_params(StandardScaler__with_mean=s) # 标准化的时候是否要中心化
            model.set_params(Poly__degree=d) # 多项式拓展的阶数
            model.set_params(LinearRegression__fit_intercept=r) # 回归的时候是否考虑截距 
            ical +=1
            # 训练
            model.fit(x_train,y_train)
            # 预测
            y_predict = model.predict(x_test)
            # 评估
            score = model.score(x_test,y_test)
            # 画图
            label = u'%d阶, 准确率=%.3f,中心化=%s,截距=%s' % (d,score,s,r)
            plt.plot(t, y_predict, 'b-', lw=line_width, alpha=0.75,label=label)
            plt.legend(loc = 'upper left')
            plt.grid(True)
plt.suptitle(u"Pipeline参数对比", fontsize=20)
plt.grid(b=True)
plt.show()
plt.savefig('pipeline.png')

python中linear用法sklearn python sklearn pipeline_缓存


使用下来的感受是,所有的过程,只需要一个fit和一个predict就可以实现。大大减少了代码量。