机器学习(五)——集成学习
demi 在 周五, 10/26/2018 - 15:02 提交
1、boosting与bagging的概念:
(1)bagging:从原始数据中随机抽样得到S个同样大小的数据集,来训练S个基学习器,各学习器之间互不依赖。是一种并行的方法。
各分类器的权重都是相等的。分类结果是用这S个分类器进行分类,选择分类器投票结果中最多的类别作为最后的分类结果。
(抽样方法为有放回的抽样:允许每个小数据集中可以有重复的值。)
bagging对于弱学习器没有限制,这和Adaboost一样。但是最常用的一般也是决策树和神经网络。
bagging的集合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常使用简单平均法,对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。
优点:
a. 算法每次都进行采样来训练模型,泛化能力很强,对于降低模型的方差很有作用,当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些;