浅谈DP、MC、TD方法的区别与联系

demi 在周五, 06/19/2020 - 11:44 提交

引言

Dynamic Programming, Monte Carlo, Temporal Difference是强化学习过程中最基础的三种算法，本文主要总结一下这三种方法的区别与联系；

强化学习模型本质上是一个随机过程，可以用概率图模型来描述，就像 HMM 可以使用有向图来描述，马尔可夫网可以使用无向图来描述，强化学习对应的图模型是Finite Markov Decision Process（MDP），如下图（也被称作智能体-环境交互模型）：

强化学习主要分为两步工作，第一步，预测每个状态的value function或Q function，第二步，根据value function或Q function生成Policy；

Dynamic Programming

MDP模型已知，使用贝尔曼方程进行迭代求解value function：

学习算法一般使用GPI（Generalized Policy Iteration），及policy evaluation和policy improvement同时进行，最终找到 optimal value function和optimal policy。policy evaluation过程使用的是bootstrap方法，向前传播；

Monte Carlo 回合更新

MDP模型未知，通过回合制（episode）采样来计算value function

每遍历完一个episode，就进行Q function更新：

或value function更新：

E(R(s,a))表示一个episode内的(s,a) (s,a)(s,a)对应的回报的期望，E(R(s)) E(R(s))E(R(s)) 表示一个episode内的 s ss 对应的回报的期望，α \alphaα表示学习率；

例如：On-policy First-visit MC control algorithm

Temporal Difference 单步更新

MDP模型未知，通过回合制（episode）采样来计算value function，与MC的区别是，每执行完episode中的一步就进行更新；

更新方法：

TD方法结合了 DP 的bootstrap和 MC 的sampling

典型算法：Sarsa(On-policy TD Control)、Q-Learning(Off-policy TD Control)、Sarsa(λ \lambdaλ)等

总结

TD结合了MC的sampling方法和DP的bootstrap方法，是空间复杂度和时间复杂度都最低的算法，是大型状态空间问题的唯一解决方案；

MC收敛于样本的无偏估计，TD收敛于样本的确定等价估计；

版权声明：本文为CSDN博主「吃龙虾一样能吃饱」的原创文章，
遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_36013249/article/details/105868739

强化学习

强化学习（三）用动态规划（DP）求解	强化学习（四）用蒙特卡罗法（MC）求解	自动驾驶中的强化学习：从虚拟到现实
机器学习经典算法总结：强化学习	深度学习与强化学习的两大联姻：DQN与DDPG的对比分析	强化学习（五）用时序差分法（TD）求解

浅谈DP、MC、TD方法的区别与联系

最新文章

最新文章