强化学习

强化学习(Reinforcement Learning,RL)是一种机器学习范式,旨在使智能体通过与环境的交互来学习如何在某个任务中做出决策。强化学习的核心思想是通过试错来学习,通过获得奖励或惩罚来调整其行为,以最大化长期累积的奖励。

强化学习AI能带你1打5吗?MIT新研究:AI并不是人类的最佳队友

强化学习的AI在对抗游戏中表现十分强力,但被虐的只有人类玩家。如果这么强的AI做了队友又该怎么样?MIT最近研究表明,AI和人类玩家之间的配合可以说是没有配合了,根本看不懂队友给的各种暗示信息!

强化学习(五)用时序差分法(TD)求解

虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时序差分(Temporal-Difference, TD)。

深度学习与强化学习的两大联姻:DQN与DDPG的对比分析

Q学习(Q-Learning)算法是提出时间很早的一种异策略的时序差分学习方法;DQN 则是利用神经网络对 Q-Learning 中的值函数进行近似,并针对实际问题作出改进的方法;而 DDPG 则可以视为 DQN 对连续型动作预测的一个扩展;本文将从定义对比分析 DQN 和 DDPG ,更好地理解二者的算法区别与联系。

浅谈DP、MC、TD方法的区别与联系

Dynamic Programming, Monte Carlo, Temporal Difference是强化学习过程中最基础的三种算法,本文主要总结一下这三种方法的区别与联系;强化学习模型本质上是一个随机过程,可以用概率图模型来描述,就像 HMM 可以使用有向图来描述,马尔可夫网可以使用无向图来描述,强化学习对应的图模型是Finite Markov Decision Process(MDP)

机器学习经典算法总结:强化学习

强化学习模型根据输入学习一系列动作(action),而不同的动作会逐渐累计起来,在某些时候就会得到一些奖赏(reward)。执行某个动作并不能立即获得这个最终奖赏,只能得到一个当前反馈。机器要做的是通过在环境中不断尝试而学得一个策略(policy)。