集成学习

机器学习:集成学习(ensemble learning)(一)——原理概述

集成学习(ensemble learning)

集成学习通过构建多个个体学习器,然后再用某种策略将他们结合起来,产生一个有较好效果的强学习器来完成任务。基本原理如下图所示。这里主要有三个关键点:个体学习器的同质异质、个体学习器的生成方式、结合策略。

机器学习:集成学习(ensemble learning)(一)——原理概述

  •   同质异质

首先需要明确的是个体学习器至少不差于弱学习器。弱学习器常指泛化性能略优于随机猜测的学习器,例如二分类问题中精度略高于50%的分类器。对于训练数据若集成中的个体学习器为同一类型,例如都为BP神经网络或者都为决策树,则称同质集成。同样的道理,若个体学习器类型不同,例如既有决策树又有神经网络,则称异质集成。

  •   个体学习器的生成方式

深入机器学习之集成学习

集成学习体现了“More is always better”(多多益善)的思想,它是是目前机器学习的一大热门方向,所谓集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。

深入机器学习之集成学习

这张图片很清楚显示出其原理,假设需要预测的对象很大,每个模型可能只能处理其部分问题,多训练一些模型就能更有效率也更准确地得到预测结果。

1、Ensemble综述

(1) 概念:
  •   训练多个模型解决同一问题,组合后模型的泛化能力很有可能变强。
  •   即使某些分类器出错,其他分类器有希望将其纠正。
  •   集成学习也被称为committee-based learning或者multiply classifier systems。
  •   在竞赛和科研中有广泛应用。

(2)结构

机器学习方法:集成学习原理小结

集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。

1. 集成学习概述

从下图,我们可以对集成学习的思想做一个概括。对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。

机器学习方法:集成学习原理小结

也就是说,集成学习有两个主要的问题需要解决,第一是如何得到若干个个体学习器,第二是如何选择一种结合策略,将这些个体学习器集合成一个强学习器。

2. 集成学习之个体学习器

同步内容
--电子创新网--
粤ICP备12070055号