深度学习与强化学习的两大联姻:DQN与DDPG的对比分析
demi 在 周三, 12/30/2020 - 09:31 提交
Q学习(Q-Learning)算法是提出时间很早的一种异策略的时序差分学习方法;DQN 则是利用神经网络对 Q-Learning 中的值函数进行近似,并针对实际问题作出改进的方法;而 DDPG 则可以视为 DQN 对连续型动作预测的一个扩展;本文将从定义对比分析 DQN 和 DDPG ,更好地理解二者的算法区别与联系。
深度学习是一种基于人工神经网络的机器学习方法,它通过多层神经网络对数据进行建模和学习,从而使计算机能够自动从数据中提取特征并进行预测。深度学习在图像处理、语音识别、自然语言处理等领域取得了显著的突破,特别是在大数据和强大计算能力的支持下,深度学习已成为解决复杂问题的主要技术。
Q学习(Q-Learning)算法是提出时间很早的一种异策略的时序差分学习方法;DQN 则是利用神经网络对 Q-Learning 中的值函数进行近似,并针对实际问题作出改进的方法;而 DDPG 则可以视为 DQN 对连续型动作预测的一个扩展;本文将从定义对比分析 DQN 和 DDPG ,更好地理解二者的算法区别与联系。
深度学习主要是数据驱动进行特征提取,根据大量样本的学习能够得到深层的、数据集特定的特征表示,其对数据集的表达更高效和准确,所提取的抽象特征鲁棒性更强,泛化能力更好,并且可以是端到端的。缺点是样本集影响较大,算力要求较高。
深度学习是机器学习的一个子领域,属于人工智能(AI)和物联网(IoT)。然而,如果没有深度学习的应用,自动化和智能就不会达到今天的水平。例如,人工智能在制造业已经取得了长足的进步,比如预测性维修技术。然而,受益于深度学习应用的并非只有这个行业。
基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展。如今,它被用于图像分类、人脸识别、图像中物体的识别、视频分析和分类以及机器人和自动驾驶车辆的图像处理等应用上。
深度学习网络模型训练困难的原因是,cnn包含很多隐含层,每层参数都会随着训练而改变优化,所以隐层的输入分布总会变化,每个隐层都会面临covariate shift的问题。
最近的一些研究发现很多自监督与无监督学习的技术思想也可适用于图类型的数据,我们在设计用于检测漏洞的图神经网络过程中也受到了很多来自CV、NLP领域自监督学习的启发来设计模型,我们今天将介绍一些其他研究者已经发表出来的相关的工作。
我们对世界的体验是多模态的 —— 我们看到物体,听到声音,感觉到质地,闻到气味,尝到味道。模态是指某件事发生或经历的方式,当一个研究问题包含多个模态时,它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够同时解释这些多模态的信号。
深度神经网络(DNN)本质上是通过具有多个连接的感知器而形成的,其中感知器是单个神经元。可以将人工神经网络(ANN)视为一个系统,其中包含沿加权路径馈入的一组输入。然后处理这些输入,并产生输出以执行某些任务。
在深度学习领域,大家都能经常听到超参数和模型参数的概念,但是还有长期变量、临时变量这些概念很多人并不知道是什么,甚至不少资深玩家对超参数和模型参数的认识也是模糊不清,超参数、模型参数、长期变量与临时变量都是深度学习上下文中的参数变量,掌握好这些概念对我们加深了解深度学习很有必要,也是我们炼丹必不可缺少的一环。下面就让我们一起来了解这些概念吧!
神经网络学习过程的本质就是为了学习数据分布,如果我们没有做归一化处理,那么每一批次训练数据的分布不一样,从大的方向上看,神经网络则需要在这多个分布中找到平衡点,从小的方向上看,由于每层网络输入数据分布在不断变化,这也会导致每层网络在找平衡点,显然,神经网络就很难收敛了。