GBDT原理-Gradient Boosting Decision Tree

2018-01-26 830

背景

决策树是一种基本的分类与回归方法。决策树模型具有分类速度快，模型容易可视化的解释，但是同时是也有容易发生过拟合，虽然有剪枝，但也是差强人意。

提升方法（boosting）在分类问题中，它通过改变训练样本的权重（增加分错样本的权重，减小分队样本的的权重），学习多个分类器，并将这些分类器线性组合，提高分类器性能。boosting数学表示为：

f (x) = w 0 + \sum m = 1 M w m ϕ m (x)

其中w是权重，

ϕ是弱分类器的集合，可以看出最终就是基函数的线性组合。

于是决策树与boosting结合产生许多算法，主要有提升树、GBDT等。本文主要是GBDT学习笔记。

Gradient Boosting

Gradient Boosting是一种Boosting的方法，它主要的思想是，每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能（一般为拟合程度+正则项），认为损失函数越小，性能越好。而让损失函数持续下降，就能使得模型不断改性提升性能，其最好的方法就是使损失函数沿着梯度方向下降（讲道理梯度方向上下降最快）。

Gradient Boost是一个框架，里面可以套入很多不同的算法。

提升树-boosting tree

以决策树为基函数的提升方法称为提升树，其决策树可以是分类树OR回归树。提升树模型可以表示为决策树的加法模型。

f M (x) = \sum m = 1 M T (x; Θ m)

其中，

T(x;Θm)表示决策树，

Θm 表示树的参数，M为树的个数。

回归问题提升树算法

输入：训练数据集

T={(x1,y1),(x2,y2),⋅⋅⋅,(xN,yN)},xi∈χ=Rn,yi∈γ={−1,+1}, i=1,2,⋅⋅⋅,N；

输出：提升树

fM(x)

初始化
f0(x)=0
对于
m=1,2,...M:
1. 计算残差（后一棵树拟合前一颗树残差）：
  
  $r m i = y i - f m - 1 (x i)$
2. 拟合残差学习一个回归树，得到
  T(x;Θm)
3. 更新
  fm(x)=fm−1(x)+T(x;Θm)
M次迭代之后得到提升树：

$f M (x) = \sum m = 1 M T (x; Θ m)$

Gradient Boosting Decision Tree

提升树的学习优化过程中，损失函数平方损失和指数损失时候，每一步优化相对简单，但对于一般损失函数优化的问题，Freidman提出了Gradient Boosting算法，其利用了损失函数的负梯度在当前模型的值

- [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

作为回归问题提升树算法的残差近似值，去拟合一个回归树。

算法

输入：训练数据集

T={(x1,y1),(x2,y2),⋅⋅⋅,(xN,yN)},xi∈χ=Rn,yi∈γ={−1,+1}, i=1,2,⋅⋅⋅,N；

输出：回归树

fM(x)

初始化

$f 0 (x) = a r g min c \sum i = 1 N L (y i, c)$
对m=1,2,..M
1. 对i=1,2,…,N，计算
  
  $r m i = - [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)$
2. 对
  rmi拟合一颗回归树，得到第m棵树的叶结点区域Rmj, j=1,2,...J，即一棵由J个叶子节点组成的树。
3. 对
  j=1,2,...J，计算
  $c m j = a r g min c \sum x i \in R m j L (y i, f m - 1 (x i) + c)$
  
  2.2,2.3这一步相当于回归树递归在遍历所有切分变量j和切分点s找到最优j,s，然后在每个节点区域求最优的c。参考回归树生成算法
4. 更新
  fm(x)=fm−1(x)+∑j=1JcmjI(x∈Rmj)
得到回归树

$f^(x) = f M (x) = \sum m = 1 M f m (x) = \sum m = 1 M \sum j = 1 J c m j I (x \in R m j)$

算法1步获得使得损失函数最小的常数估计值，是一个只有根节点的树。在2.1步计算损失函数的负梯度在当前模型的值，将它作为残差估计。在2.2步估计回归树的叶结点区域，来拟合残差的近似值。在2.3步利用线性搜索估计回归树叶结点区域的值，使损失函数最小化。2.4更新回归树。第3步获得输出的最终模型。

Shrinkage

Shrinkage的思想认为，每次走一小步逐渐逼近结果的效果，要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即它不完全信任每一个棵残差树，它认为每棵树只学到了真理的一小部分，累加的时候只累加一小部分，通过多学几棵树弥补不足。

数学方程对比：

之前：fm(x)=fm−1(x)+∑j=1JcmjI(x∈Rmj)
Shrinkage：fm(x)=fm−1(x)+step∗∑j=1JcmjI(x∈Rmj)

Shrinkage仍然以残差作为学习目标，但对于残差学习的结果，只累加一小部分，step一般取值0.001-0.01(非gradient的step)，使得各个树的残差是渐变而不是陡变的，即将大步切成了小步。Shrinkage能减少过拟合发生也是经验证明的，目前还没有看到从理论的证明。

总结

原始的boosting算法开始时，为每一个样本赋上一个权重值。在每一步训练中得到的模型，会使得数据点的估计有对有错，在每一步结束后，增加分错的点的权重，减少分对的点的权重，这样使得某些点如果老是被分错，那么就会被“严重关注”，也就被赋上一个很高的权重。然后等进行了N次迭代（由用户指定），将会得到N个简单的分类器（basic learner），然后我们将它们组合起来（比如说可以对它们进行加权、或者让它们进行投票等），得到一个最终的模型。

那么GBDT算法中并未有权重的改变，哪里有boosting思想？

Gradient Boosting与Boosting区别在于，每一计算的是为了减少上一次的残差，下一个模型主要在残差减少的梯度方上建立模型，使得残差往梯度方向上减少。

虽然不同，但是GBDT算法会更关注那些梯度比较大的样本，和Boosting思想类似。

附录

CSDN原文：http://blog.csdn.net/shine19930820/article/details/65633436

微信关注我们

原文链接：https://yq.aliyun.com/articles/404845

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

GBDT原理及利用GBDT构造新的特征-Python实现

背景 Gradient Boosting Gradient Boosting是一种Boosting的方法，它主要的思想是，每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能（一般为拟合程度+正则项），认为损失函数越小，性能越好。而让损失函数持续下降，就能使得模型不断改性提升性能，其最好的方法就是使损失函数沿着梯度方向下降（讲道理梯度方向上下降最快）。 Gradient Boost是一个框架，里面可以套入很多不同的算法。 Gradient Boosting Decision Tree 每一次建立树模型是在之前建立模型损失函数的梯度下降方向。即利用了损失函数的负梯度在当前模型的值作为回归问题提升树算法的残差近似值，去拟合一个回归树。具体算法算理：GBDT原理-Gradient Boosting Decision Tree GBDT应用-回归和分类 GBDT分类：每一颗树拟合当前整个模型的损失函数的负梯度，构建新的树加到当前模型中形成新模型，下一棵树拟合新模型的损失函数的负梯度。下面是其在Python的sklearn包下简单调用方法。 from sklearn i...

2018-01-26

631

1.序距离上一次编辑将近10个月，幸得爱可可老师（微博）推荐，访问量陡增。最近毕业论文与xgboost相关，于是重新写一下这篇文章。关于xgboost的原理网络上的资源很少，大多数还停留在应用层面，本文通过学习陈天奇博士的PPT、论文、一些网络资源，希望对xgboost原理进行深入理解。（笔者在最后的参考文献中会给出地址） 2.xgboost vs gbdt 说到xgboost，不得不说gbdt，两者都是boosting方法（如图1所示），了解gbdt可以看我这篇文章地址。图1 如果不考虑工程实现、解决问题上的一些差异，xgboost与gbdt比较大的不同就是目标函数的定义。注：红色箭头指向的l即为损失函数；红色方框为正则项，包括L1、L2；红色圆圈为常数项。xgboost利用泰勒展开三项，做一个近似，我们可以很清晰地看到，最终的目标函数只依赖于每个数据点的在误差函数上的一阶导数和二阶导数。 3.原理对于上面给出的目标函数，我们可以进一步化简（1）定义树的复杂度对于f的定义做一下细化，把树拆分成结构部分q和叶子权重部分w。下图是一个具体的例子。结构函数q把输入映射到叶子的...

2018-01-26

626

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。