深度强化学习深层次理解

作者:ZhiqiangHo
来源:深度学习与先进智能决策(ID:MultiAgent1024)

遗传算法的生物基础是人类生理的进化及发展,这种方法被称为进化主义。另一方面,神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,此方法被称为连接主义。

强化学习

反复试验搜索和延迟奖励是强化学习的两个最突出特点。

强化学习技术的基本原理是:如果Agent的某个动作导致环境给与的奖励增大,那么Agent以后产生这个动作的趋势会加强;反之Agent产生这个动作的趋势会减弱。

原强化物:直接满足个体需求的刺激,如食物等。次强化物:经学习而间接使得个体满足的刺激物,如奖状、金钱。

根据强化学习中环境的性质不同,可以分为以下几类:

第一类:环境对于给定的输入和输出映射是完全正确的,可以认为强化学习信号保持不变。因此,Agent要学习一个确定的输入-输出映射。例如,不随时间变化的联想记忆、模式识别问题。这种情况与我们所熟悉的其他一些监督学习类似。

第二类:环境是随机的,但却是平稳的。此时Agent可按某种概率分布选择动作,环境对动作的评价代表该动作成功(受奖)的概率。此概率只与动作本身有关而与环境当前状态无关。Agent根据强化信号修改动作的概率分布,以使成功的概率增大。这种情况可采用随即学习自动机理论来研究,用线性奖惩算法即可。在动物学习,经济系统以及一些简单对弈的建模中经常遇到类似的问题。

第三类:环境本身可能由一个复杂的动力系统支配,因而是非平稳的。此时,选择动作不仅要根据强化信号,还要用到环境的当前状态。Agent相当于在环境状态空间与动作空间之间实现某种联想映射,最佳映射是使强化信号的期望值达到最大。这种情况通常称为联想强化学习。强化信号和输入模式都可能是由系统输出的历史任意决定的。在这种情况下,信度分配问题(Credit Assignment Problem)变得很困难。神经网络学习。是结构信度分配(Structural Credit Assignment)问题,即将网络误差分配到不同的单元或权值。与此不同,强化学习中遇到的是时间信度分配(Temporal Credit Assignment)问题。

TD法相对于传统的学习预测方法有两种优点:

TD方法概述:TD方法是一类专门用于预测问题的渐进学习过程,传统的学习预测方法是由于预测值和实际值之间的误差来修改参数的,而TD法是由相继预测间的误差来完成的,当随着时间的推移,预测有变化时就进行学习。

1.TD法是一个渐进过程,因而更易于计算。

2.TD法趋于更有效地利用过往的经验,收敛更快,产生更好预测。

部分马尔可夫决策

解决部分感知问题的基本思路是将部分感知环境转换为MDP模型描述。

目前解决POMDP问题最主要的研究方法是预测模型方法。将状态迁移的历史知识用于预测模型式构建系统的内部状态,同时引入对内部状态的置信度,将POMDP问题转化为统计上的MDP求解。更具体的描述参考书籍《分层强化学习理论与方法》

强化学习解决POMDP问题主要方法:

学习值函数:

Memoryless policies:直接采用标准的强化学习算法。

Simple memory based approaches:使用K个历史观察表示当前状态。

UDM(Utile Distinction Memory):分解状态,构建有限状态机模型。

NSM(Nearest Sequence Memory):存储状态历史,进行距离度量。

USM(Utile Suffix Memory):综合UDM和NSM两种方法。

Recurrent-Q:使用循环神经网络进行状态预测。

策略搜索:

Evolutionary algorithm:使用遗传算法直接进行策略搜索。

Gradient ascent method:使用梯度下降(上升)法搜索。

分层强化学习

分层强化学习是通过在强化学习的基础上增加“抽象机制”把整体任务分解为不同层次上的子任务,使每个子任务在规模较小的子问题空间求解,并且求得的子任务策略可以复用,从而加快问题的求解速度。

HRL中最主要的抽象方法是建立宏动作(Macro),每个宏动作包含一个动作系列,可被系统或其他宏直接调用,从而形成了分层强化学习的控制机制。

实现HRL的抽象技术主要包括状态空间分解、时态抽象、状态抽象三种方法。

状态空间分解法是将状态空间分解为不同的子集,采取分而治之的策略进行求解,从而每次求解都是在较小规模的子空间中进行。时态抽象法是把动作序列或动作集分组,即强化学习中仅考虑的单步动作拓展到多步情形,从而减少决策次数,降低学习压力。而状态抽象法则是忽略与子任务无关的若干维变量,从而实现状态变量降维。

多时间尺度复杂系统:

在控制领域,多时间尺度复杂系统的模型化和控制问题是一个研究热点。多时间尺度系统具有快速运动和慢速运动叠加的特点,如果它们之间不相互影响,那么在对快速运动进行建模时,就无需考虑慢速运动对其带来的影响。奇异摄动理论就是用来对多时间尺度系统进行控制。

本文转自:深度学习与先进智能决策,转载此文目的在于传递更多信息,版权归原作者所有。

最新文章