demi的博客

强化学习(三)用动态规划(DP)求解

强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。

动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲。

1. 动态规划和强化学习问题的联系

对于动态规划,相信大家都很熟悉,很多使用算法的地方都会用到。就算是机器学习相关的算法,使用动态规划的也很多。

动态规划的关键点有两个:一是问题的最优解可以由若干小问题的最优解构成,即通过寻找子问题的最优解来得到问题的最优解。第二是可以找到子问题状态之间的递推关系,通过较小的子问题状态递推出较大的子问题的状态。而强化学习的问题恰好是满足这两个条件的。

我们先看看强化学习的两个基本问题。

深度学习 - 解决局部最优点问题的方案

一般的梯度下降方法寻找的是loss function的局部极小值,而我们想要全局最小值。如下误差曲面图所示,我们希望loss值可以降低到右侧深蓝色的最低点,但loss有可能“卡”在左侧的局部极小值中,也就是图中红线所走的路径。

Ray Tracing光线追踪对Unity开发者的意义

经典的“铁三角”定律决定了每个项目都有三大目标:快速、低成本和优质效果,客户往往需要从中决定优先考虑实现的二个目标。Unity的光线追踪功能通过使用广泛运用且相对低廉的计算硬件,在实时渲染中实现极为逼真的可视化效果,打破了这个铁三角定律,这种组合效果展现了我们的关键突破。

如何给图像添加噪声?

如果你把图像看作信号,那么噪声就是干扰信号。我们在采集图像时可能因为各种各样的干扰而引入图像噪声。前面提到,我们可以把图像看作一个函数,那么带有噪声的图像,就可以看作是原始图像函数与噪声函数相加的和。

物联网还未普及的四个原因

企业比以往任何时候都更受数据所驱动,物联网(IOT)是这种转变的原因之一。如今,许多企业都在使用物联网数据来驱动决策。据专家预测,到2020年,物联网设备将超过300亿台,其中一个主要趋势是数据货币化。但有一个问题:物联网数据并没有被充分利用。