机器学习基础:令你事半功倍的pipeline处理机制
↑↑↑点击上方蓝字,回复资料,10个G的惊喜 why Pipeline? 你有没有遇到过这种情况:在机器学习项目中,对训练集的各种数据预处理操作,比如:特征提取、标准化、主成分分析等,在测试集上要重复使用这些参数。 为了避免重复操作,这里就要用到机器学习中的pipeline机制 按照sklearn官网的解释 pipeline 有以下妙用: 1、便捷性和封装性:直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。 2、联合的参数选择:你可以一次grid search管道中所有评估器的参数。 3、安全性:训练转换器和预测器使用的是相同样本,管道有助于防止来自测试数据的统计数据泄露到交叉验证的训练模型中。 是不是有点云里雾里?下面我们开始这一期的刨根问题~~ Pipeline的原理 pipeline可以将许多算法模型串联起来,形成一个典型的机器学习问题工作流。 Pipeline处理机制就像是把所有模型塞到一个管子里,然后依次对数据进行处理,得到最终的分类结果, 例如模型1可以是一个数据标准化处理,模型2可以是特征选择模型或者特征提取模型,模型3可以是一个分类...


