强化学习

强化学习(Reinforcement Learning,RL)是一种机器学习范式,旨在使智能体通过与环境的交互来学习如何在某个任务中做出决策。强化学习的核心思想是通过试错来学习,通过获得奖励或惩罚来调整其行为,以最大化长期累积的奖励。

强化学习AI能带你1打5吗?MIT新研究:AI并不是人类的最佳队友

强化学习的AI在对抗游戏中表现十分强力,但被虐的只有人类玩家。如果这么强的AI做了队友又该怎么样?MIT最近研究表明,AI和人类玩家之间的配合可以说是没有配合了,根本看不懂队友给的各种暗示信息!

强化学习(五)用时序差分法(TD)求解

虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时序差分(Temporal-Difference, TD)。