warning: Creating default object from empty value in /mydata/wwwroot/xilinx.eetrend.com/modules/taxonomy/taxonomy.pages.inc on line 33.

集成学习

机器学习(五)——集成学习

1、boosting与bagging的概念:

(1)bagging:从原始数据中随机抽样得到S个同样大小的数据集,来训练S个基学习器,各学习器之间互不依赖。是一种并行的方法。

各分类器的权重都是相等的。分类结果是用这S个分类器进行分类,选择分类器投票结果中最多的类别作为最后的分类结果。
(抽样方法为有放回的抽样:允许每个小数据集中可以有重复的值。)

bagging对于弱学习器没有限制,这和Adaboost一样。但是最常用的一般也是决策树和神经网络。

bagging的集合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常使用简单平均法,对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。

优点:

a. 算法每次都进行采样来训练模型,泛化能力很强,对于降低模型的方差很有作用,当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些;

b. 训练一个Bagging集成与直接使用基学习算法训练一个学习器的复杂度同阶,高效;

机器学习:集成学习(ensemble learning)(一)——原理概述

集成学习(ensemble learning)

集成学习通过构建多个个体学习器,然后再用某种策略将他们结合起来,产生一个有较好效果的强学习器来完成任务。基本原理如下图所示。这里主要有三个关键点:个体学习器的同质异质、个体学习器的生成方式、结合策略。

机器学习:集成学习(ensemble learning)(一)——原理概述

  •   同质异质

首先需要明确的是个体学习器至少不差于弱学习器。弱学习器常指泛化性能略优于随机猜测的学习器,例如二分类问题中精度略高于50%的分类器。对于训练数据若集成中的个体学习器为同一类型,例如都为BP神经网络或者都为决策树,则称同质集成。同样的道理,若个体学习器类型不同,例如既有决策树又有神经网络,则称异质集成。

  •   个体学习器的生成方式

深入机器学习之集成学习

集成学习体现了“More is always better”(多多益善)的思想,它是是目前机器学习的一大热门方向,所谓集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。

深入机器学习之集成学习

这张图片很清楚显示出其原理,假设需要预测的对象很大,每个模型可能只能处理其部分问题,多训练一些模型就能更有效率也更准确地得到预测结果。

1、Ensemble综述

(1) 概念:
  •   训练多个模型解决同一问题,组合后模型的泛化能力很有可能变强。
  •   即使某些分类器出错,其他分类器有希望将其纠正。
  •   集成学习也被称为committee-based learning或者multiply classifier systems。
  •   在竞赛和科研中有广泛应用。

(2)结构

机器学习方法:集成学习原理小结

集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。

1. 集成学习概述

从下图,我们可以对集成学习的思想做一个概括。对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。

机器学习方法:集成学习原理小结

也就是说,集成学习有两个主要的问题需要解决,第一是如何得到若干个个体学习器,第二是如何选择一种结合策略,将这些个体学习器集合成一个强学习器。

2. 集成学习之个体学习器

同步内容
--电子创新网--
粤ICP备12070055号