深度学习优化方法——梯度下降算法

demi 在周五, 05/10/2019 - 09:27 提交

梯度下降的框架主要分三种：

1，全量梯度下降。
每次使用全部的样本来更新模型参数，优点是收敛方向准确，缺点是收敛速度慢，内存消耗大。

2，随机梯度下降。
每次使用一个样本来更新模型参数，优点是学习速度快，缺点是收敛不稳定。

3，批量梯度下降。
每次使用一个batchsize的样本来更新模型参数，平衡了全量梯度下降和随机梯度下降的方法。

1、batch gradient descent（BGD 批量梯度下降）

所谓的梯度下降方法是无约束条件中最常用的方法。假设f(x)是具有一阶连续偏导的函数，现在的目标是要求取最小的f(x) : min f(x)

核心思想：负梯度方向是使函数值下降最快的方向，在迭代的每一步根据负梯度的方向更新x的值，从而求得最小的f(x)。因此我们的目标就转变为求取f(x)的梯度。

优点：

缺点：

在计算的时候，需要在每一步（xk处）计算梯度，它每更新一个参数都要遍历完整的训练集，不仅很慢，还会造成训练集太大无法加载到内存的问题，此外该方法还不支持在线更新模型。

所以，为了提高速度，减少计算量，提出了SGD随机梯度下降的方法，该方法每次随机选取一个样本进行梯度计算，大大降低了计算成本。

2、stochastic gradient descent（SGD随机梯度下降）

随机梯度下降算法和批量梯度下降的不同点在于其梯度是根据随机选取的训练集样本来决定的，其每次对theta的更新，都是针对单个样本数据，并没有遍历完整的参数。当样本数据很大时，可能到迭代完成，也只不过遍历了样本中的一小部分。

优点：

缺点：

不能保证每次的优化方向不一定是全局最优的。（虽然BGD可以让参数达到全局最低点并且停止，而SGD可能会让参数达到局部最优，但是仍然会波动，甚至在训练过程中让参数会朝一个更好的更有潜力的方向更新。但是众多的实验表明，当我们逐渐减少学习速率时，SGD和BGD会达到一样的全局最优点。）
由于是抽取,因此不可避免的,得到的梯度肯定有误差.因此学习速率需要逐渐减小，否则模型无法收敛
因为误差，所以每一次迭代的梯度受抽样的影响比较大,也就是说梯度含有比较大的噪声,不能很好的反映真实梯度.并且SGD有较高的方差，其波动较大

考虑到每次只选择一个样本进行梯度更新存在较大的噪声，学者们开始尝试每次选择一小批样本进行梯度更新，在降低噪声的同时提高速度，因此就有了下面的MBGD小批量梯度下降法。

3、mini-batch gradient descent（MBGD小批量梯度下降）

为了综合上述两种方法，提出了小批量梯度下降。

它：
（1）降低在SGD中高方差的问题，能使得收敛更加稳定；
（2）可以利用深度学习中最先进的库进行矩阵优化的操作，加速操作；
（3）一般的小批量介于50～256，但是当适用很小的批量时，有时也统称为SGD。

核心思想：在每次迭代时考虑一小部分样本，比如考虑10个样本，同时计算在这10个样本点上的每个参数的偏导数，对于每个优化参数，将该参数在这10个样本点的偏导数求和。

但是，需要注意的是因为这里也存在样本选择的随机性，学习速率应该要逐渐减小，同时上述方法并不能保证好的收敛性。

主要存在的挑战有：

选择适当的学习率可能很困难。太小的学习率会导致收敛性缓慢，而学习速度太大可能会妨碍收敛，并导致损失函数在最小点波动。
使用学习率计划：尝试在训练期间调整学习率。比如根据预先制定的规则缓慢的降低学习速率，或者当每次迭代之间的偏导差异已经低于某个阈值时，就降低学习速率。但是这里面的学习速率更新规则，以及阈值都是需要预先设定的，因此不适应于所有的数据集。
此外，使用梯度更新的方法会导致所有参数都用学习速率更新。但是当训练集数据是稀疏的，或者特征的频率是不同的，我们可能不希望它们更新到同样的程度，因此使用相同的学习速率会导致那些很少出现的特征有较大的变化。
在求取那些高度非凸的误差函数的最小值时，我们应该避免陷入局部最优解，实验表明，最困难的不是从局部最优而是鞍点，鞍点就是沿着某一个方向他是稳定的，沿着另一个方向不稳定，既不是最小点也不是最大点。这会使得该点在所有维度上梯度为0，让SGD难以逃脱。

本文转自：博客园 - 深夜十二点三十三，转载此文目的在于传递更多信息，版权归原作者所有。

实用！深度学习的模型调试小技巧	GPU的张量核心：深度学习的秘密武器	深度学习中的五种归一化（BN、LN、IN、GN和SN）方法简介
图片的数据增强（Data Augmentation）方法	深度学习：从理论到应用的全面解析	所以，机器学习和深度学习的区别是什么？

最新文章