深度学习优化函数详解(4)——momentum 动量法
demi 在 周五, 09/07/2018 - 09:27 提交
本文延续该系列的上一篇 深度学习优化函数详解(3)– mini-batch SGD 小批量随机梯度下降
如果把梯度下降法想象成一个小球从山坡到山谷的过程,那么前面几篇文章的小球是这样移动的:从A点开始,计算当前A点的坡度,沿着坡度最大的方向走一段路,停下到B。在B点再看一看周围坡度最大的地方,沿着这个坡度方向走一段路,再停下。确切的来说,这并不像一个球,更像是一个正在下山的盲人,每走一步都要停下来,用拐杖来来探探四周的路,再走一步停下来,周而复始,直到走到山谷。而一个真正的小球要比这聪明多了,从A点滚动到B点的时候,小球带有一定的初速度,在当前初速度下继续加速下降,小球会越滚越快,更快的奔向谷底。momentum 动量法就是模拟这一过程来加速神经网络的优化的。
后文的公式推导不加特别说明都是基于 mini-batch SGD 的,请注意。
公式推导
更多实验数据背景及模型定义请参看该系列的前几篇文章。