关于梯度下降方法四知四会

demi 在周一, 08/05/2019 - 11:55 提交

梯度下降方法是机器学习中常用的参数求解方法。本文将从四个方面为大家详细介绍梯度下降的算法理论，具体包括：

① 梯度下降方法原理

② 关于梯度，为什么负梯度方向是下降最大方向？

③ 实践，以回归分析为例

④ 梯度下降的其他问题

1、梯度下降方法原理

在机器学习算法中，我们在定义损失函数后，需要对损失函数最小化进行参数求解。而梯度下降法是在无约束优化问题时的经典方法。

只要上述过程不断执行下去总能收敛到局部极小值（为什么是局部极小值而不是全局最小值？下面再探讨）因此现在的问题就转化为沿着哪个方向更新 x，能够使得函数值f(x)下降得最快？

答案是负梯度下降方向。

梯度下降过程示意图：

如上图，事实上梯度下降过程就好像从山上某一起点要下到山下的最低点。当然，从起到到最低点存在很多条路，那么我们应该怎么走呢？一个方法就是开始时，环顾四周，先找到一个下降最快的方向，之后沿着这个方向走一步。走一步后，再重新环顾四周，再找到一个下降最快的方向，于是再走一步。之后不断重复这个过程，直到你发现去到某一个点，环顾四周，方向都比你高，则认为到达终点了。

具体来说，梯度下降算法步骤如下：

从上式中可以发现迭代的三个停止条件：
（1）梯度小于指定阈值；
（2）目标函数变化小于指定阈值；
（3）迭代变量x小于指定阈值；

值得注意的是，当目标函数是凸函数时，梯度下降法的解释全局最优解，这是没有问题的。但是在很多情况下，我们通过梯度下降到达的不一定是全局最低点，而是局部最低点，如下图所示，分别从A点和B点出发，通过若干次后迭代后，分别落于全局最低点和局部最低点。

2、为什么负梯度方向是下降最大方向？

要完整理解梯度，我们将从导数开始针对梯度进行推导：
• 导数及偏导数
• 方向导数
• 梯度

1. 导数及偏导数

在正式讲解梯度之前，我们先对导数进行讨论：

不过由于是一元函数，因此也就只有一个方向变动。接下来，我们讨论二元函数上不同方向的变化，接下来，我们进入到二元函数领域，进一步介绍偏导数：

同样把偏导数转为为图像有：

实际上，我们已经发现了偏导数是多元函数沿着坐标轴方向上的变化率，但在实际情况中，我们不仅要知道多元函数在坐标轴上的变化率，还希望知道在其他特定方向上的变化率，这就引出了下一个概念，方向导数。

2. 方向导数

证明：

3. 梯度

接下来，回答最后一个问题，在多元函数的曲平面上，哪个方向是函数变化最快的方向？

因此我们把向量f定义为函数 g 的梯度。因此我们说梯度方向是函数增长最快的方向，而负梯度方向则是函数降低最快的方向。

3、实例，以回归分析为例

对于多元回归分析，我们有回归公式如下所示：

针对于该方程中的未知参数，我们可以利用最小二乘法进行估计，损失函数方程有：

有梯度下降公式如下：

对于第 j 个变量，有：

所以有更新公式如下：

在实际应用当中，梯度下降有三种方式分别是批量梯度下降（BatchGradient Descent，BGD），随机梯度下降（StochasticGradient Descent，SGD）以及小批量梯度下降（Mini-batchGradient Descent，MBGD）

1）批量梯度下降：最经典的梯度下降方法，就是就上述例子所使用的计算公式，在计算时，每次更新都使用所有的样本进行计算，仍以回归分析为例，有：

2）随机梯度下降:是批量梯度下降的一个变体，相对于批量梯度下降需要使用所有的样本进行更新，随机梯度下降每次更新只使用一个样本进行计算:

相比于批量梯度下降，由于随机梯度下降每次只使用一个样本进行迭代更新，因此训练速度要比批量梯度下降快得多，但是也由于每次只使用一个样本更新，需要的迭代次数将增加（但整体迭代时间还是要比批量梯度下降更快），同而且得到的解可能并非最优解。

3）小批量梯度下降：批量梯度下降和随机梯度下降实际上就是两个极端，一个使用所有样本，另一只使用一个样本，而小批量梯度下降则可以视为两种方法的折中，我们将使用 k 个样本进行更新：

4、梯度下降的其他问题

1）初始点的选择：初始点的选择没有确定的方法。当初始点距离最优点较近的时候，可以获得更快的收敛速度。对于凸问题，任意初始点都能获得最优解，而对于非凸问题，则只有在最优点的邻域内才能获得最优解，否则只是局部最小。在实验中，可以尝试选择多个不同值作为初始点进行训练，选择能够获得损失函数最小值的初始点作为初始点。

2）学习率的选择：学习率既可以选择固定值，也可以选择自适应方法。一般来说，自适应方法的迭代的早期会设定较大的步长，而随着迭代次数的增加，则慢慢减小步长，防止错过最优解。

本文转自：探数寻理（微信号：wetalkdata），作者：浩彬老撕，转载此文目的在于传递更多信息，版权归原作者所有。

梯度下降

理解梯度下降	深度学习优化方法——梯度下降算法	几种梯度下降方法对比
mini-batch梯度下降	梯度下降优化算法综述	三种梯度下降算法的区别(BGD, SGD, MBGD)

最新文章

最新文章