机器学习(六)—随机森林Random Forest
demi 在 周三, 10/31/2018 - 09:27 提交
1、什么是随机采样?
Bagging可以简单的理解为:放回抽样,多数表决(分类)或简单平均(回归);
Bagging的弱学习器之间没有boosting那样的联系,不存在强依赖关系,基学习器之间属于并列生成。它的特点在“随机采样”。
随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。也就是说,之前采集到的样本在放回后有可能继续被采集到。对于我们的Bagging算法,一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样,则由于随机性,T个采样集各不相同。
注意到这和GBDT的子采样是不同的。GBDT的子采样是无放回采样,而Bagging的子采样是放回采样。
2、什么是袋外数据(Out Of Bag, 简称OOB)?