如何解决RNN中梯度消失问题？

demi 在周二, 08/13/2019 - 09:23 提交

梯度消失：

由于0-1范围内的导数累乘，会发现累乘会导致激活函数导数的累乘，如果取tanh或sigmoid函数作为激活函数的话，那么必然是一堆小数在做乘法，结果就是越乘越小。随着时间序列的不断深入，小数的累乘就会导致梯度越来越小直到接近于0，这就是“梯度消失“现象。

解决

① 选取更好的激活函数，如Relu激活函数。ReLU函数的左侧导数为0，右侧导数恒为1，这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“，但设定合适的阈值可以解决这个问题

② 加入BN层，其优点包括可加速收敛、控制过拟合，可以少用或不用Dropout和正则、降低网络对初始化权重不敏感，且能允许使用较大的学习率等

③ 改变传播结构，如换成LSTM

---------------------
版权声明：本文为CSDN博主「alanjia163」的原创文章，遵循CC 4.0 by-sa版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_35290785/article/details/90137251

梯度消失和梯度爆炸问题详解	CNN、RNN、DNN的内部网络结构有什么区别？	深度学习中的激活函数与梯度消失
LSTM 为何如此有效？这五个秘密是你要知道的	LSTM模型与前向反向传播算法	RNN标准模型及其变种

如何解决RNN中梯度消失问题？

最新文章

最新文章