GBDT机器学习模型:“论小树的自我修养”

1、算法简介

GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点,在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。

要理解 GBDT,首先就要理解B(Boosting)。Boosting 是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范畴。Boosting 方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断要好。通俗地说,就是"三个臭皮匠顶个诸葛亮"的道理。

Boosting模型采用另一种形式,把基础模型组合起来——串联。这类模型的思想是,既然一个基础模型可以做出不完美的预测,那么我们可以用第二的基础模型,把“不完美的部分”补上。我们可以使用很多的基础模型,不断地对“不完美的部分”进行完善,以得到效果足够好的集成模型。Boosting的策略非常多,以GBDT为例,它会用第K个CART拟合前k-1个CART留下的残差,从而不断的缩小整个模型的误差,如图。

GBDT机器学习模型:“论小树的自我修养”


2、算法原理

GBDT的原理很简单:

所有弱分类器的结果相加等于预测值。

每次都以当前预测为基准,下一个弱分类器去拟合误差函数对预测值的残差(预测值与真实值之间的误差)。

GBDT的弱分类器使用的是树模型。

GBDT的名字里有“梯度”和“提升”两个词语。一般来说,我们首先接触的是“梯度下降”,看到这里的“梯度上升”时会疑惑——不用疑惑,这里的“梯度”和“提升”没有直接关系:“梯度”被用来让损失函数快速下降,进而让模型效果“提升”。

基于梯度提升算法的学习器叫做 GBM(Gradient Boosting Machine)。理论上,GBM 可以选择各种不同的学习算法作为基学习器。GBDT 实际上是 GBM 的一种情况。为什么梯度提升方法倾向于选择决策树作为基学习器(也就是 GB 为什么要和 DT 结合,形成 GBDT) 呢?

决策树可以认为是 if-then 规则的集合,易于理解,可解释性强,预测速度快。同时,决策树算法相比于其他的算法需要更少的特征工程,比如可以不用做特征标准化,可以很好的处理字段缺失的数据,也可以不用关心特征间是否相互依赖等。决策树能够自动组合多个特征。不过,单独使用决策树算法时,有容易过拟合缺点。所幸的是,通过各种方法,抑制决策树的复杂性,降低单颗决策树的拟合能力,再通过梯度提升的方法集成多个决策树,最终能够很好的解决过拟合的问题。由此可见,梯度提升方法和决策树学习算法可以互相取长补短,是一对完美的搭档。

至于抑制单颗决策树的复杂度的方法有很多,比如限制树的最大深度、限制叶子节点的最少样本数量、限制节点分裂时的最少样本数量、吸收 bagging 的思想对训练样本采样,在学习单颗决策树时只使用一部分训练样本、借鉴随机森林的思路在学习单颗决策树时只采样一部分特征、在目标函数中添加正则项惩罚复杂的树结构等。


3、算法应用

GBDT在工业界应用广泛,通常被用于多分类、点击率预测以及搜索排序等任务。因其具有灵活效果好以及运算速度快等优点,GBDT在中医药数字化领域也具有一席之地。例如在构建2型糖尿病并发肾脏病中西医多模态特征融合预测模型的研究中,研究者在使用传统机器学习算法的同时,也利用了GBDT进行模型的构建。

研究者将收集到的糖尿病患者多模态数据进行清洗与降维等预处理工作,筛去频率<10%的症状条目。将剩余的中医四诊信息, 采用探索性因子分析进行特征降维,获得公共因子结构。对于降维之后的公共因子,研究者分别使用各种传统机器学习算法(如随机森林、朴素贝叶斯等)与梯度提升决策树、人工神经网络等多种算法构建2型糖尿病证候分类模型,比较模型预测准确度,判断模型分类性能。最红各模型的效果如下图所示,可见GBDT在该任务中表现良好,可以较好地辅助临床上糖尿病证候的预测分类工作。

GBDT机器学习模型:“论小树的自我修养”


4、小结

GBDT 的非线性变换比较多,表达能力强,而且不需要做复杂的特征工程和特征变换。并且因其算法结构中的每棵树结构都已确定,可并行化计算,计算速度快。同时,GBDT的可解释性不错,鲁棒性亦可,能够自动发现特征间的高阶关系。

然而,GBDT也存在一些缺点。首先,传统GBDT在优化时只用到一阶导数信息,这可能导致模型在某些情况下无法很好地拟合数据。其次,Boost是一个串行过程,不好并行化,这限制了GBDT在大规模数据集上的应用。此外,GBDT的计算复杂度较高,对于大规模数据集可能需要较长的训练时间。最后,GBDT不太适合应用于高维稀疏特征数据,因为稀疏特征可能导致模型的性能下降。


参考文献:
[1]夏庭伟. 基于机器学习构建2型糖尿病并发肾脏病中西医多模态特征融合预测模型[D].成都中医药大学,2021.DOI:10.26988/d.cnki.gcdzu.2020.000008.
[2]《图解机器学习算法(9) | GBDT模型详解(机器学习通关指南·完结)-CSDN博客》. 见于 2023年12月20日. https://blog.csdn.net/ShowMeAI/article/details/123402422.
[3] 知乎专栏. 《GBDT 算法:原理篇》. 见于 2023年12月20日. https://zhuanlan.zhihu.com/p/53980138.
[4]知乎专栏. 《深入理解LightGBM》. 见于 2023年12月20日. https://zhuanlan.zhihu.com/p/99069186.

本文转自:古今医案云平台,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章