深度学习

深度学习中梯度下降的两个阶段

事实上,在神经网络中,我们几乎总是选择我们的模型作为运行随机梯度下降的输出。对线性模型来说,我们分析SGD如何作为一个隐式调节器。对于线性模型,SGD总是收敛到一个小规范的解决方案。因此,算法本身隐含地规范了解决方案。

深度学习优化方法——梯度下降算法

梯度下降的框架主要分三种:1,全量梯度下降:每次使用全部的样本来更新模型参数,优点是收敛方向准确,缺点是收敛速度慢,内存消耗大。;2,随机梯度下降:每次使用一个样本来更新模型参数,优点是学习速度快,缺点是收敛不稳定。;3,批量梯度下降:每次使用一个batchsize的样本来更新模型参数,平衡了全量梯度下降和随机梯度下降的方法。。

深度学习的深层误解的澄清

这篇文章的目的是希望能够解释一些关于深度学习(DL)的误解,在机器学习领域,同时也被称为爆发的小宇宙和科研炒作。事实是在中间的某个地方,我希望能把这趟浑水弄清 - 至少有一点点。重要的是,我希望澄清一些攻击深度学习的问题,并讨论为什么它在自然语言处理(NLP),图像识别和机器翻译等方面表现良好,而在其他方面却失败了。

关于深度学习的再认识

近几年来,“深度学习”在国内暴得大名,无论是理论界还是实践界都对此趋之若鹜,许多学者对此有过论述,几乎所有一线教师都非常关心这一论题。就国内研究而言,短短五年就有论文500篇之多。然而,我们不无遗憾地看到,绝大多数理论及实践成果都有一种“单向度取向”,即主要是基于学习心理学认知学派的“信息加工”理论而展开的研究成果,鲜有“全视角”观照;其中国内研究多数又以“译介”为主,实证成果稀少。