强化学习 | 电子创新网 Imgtec 社区

强化学习（Reinforcement Learning，RL）是一种机器学习范式，旨在使智能体通过与环境的交互来学习如何在某个任务中做出决策。强化学习的核心思想是通过试错来学习，通过获得奖励或惩罚来调整其行为，以最大化长期累积的奖励。

基于深度学习的网络入侵检测

demi 在周二, 05/27/2025 - 14:33 提交

深度学习能够通过其强大的特征提取和模式识别能力，为网络安全提供新的解决方案。

强化学习：了解不同的机器学习技巧

demi 在周二, 07/09/2024 - 09:45 提交

强化学习是监督的还是无监督的？虽然这个技术问题很重要，但让我们把重点转向商业视角。强化学习(RL)在改变各行业的决策过程和优化战略方面具有巨大的潜力。

机器学习的经典算法与应用

demi 在周三, 06/26/2024 - 10:57 提交

机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。

强化学习的概念、特点、框架与应用

demi 在周三, 03/20/2024 - 10:37 提交

强化学习又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习：从机器学习到智能决策的进化之路

demi 在周三, 12/20/2023 - 14:32 提交

在人工智能领域，强化学习是一种重要的学习方法……

强化学习AI能带你1打5吗？MIT新研究：AI并不是人类的最佳队友

demi 在周四, 11/04/2021 - 18:41 提交

强化学习的AI在对抗游戏中表现十分强力，但被虐的只有人类玩家。如果这么强的AI做了队友又该怎么样？MIT最近研究表明，AI和人类玩家之间的配合可以说是没有配合了，根本看不懂队友给的各种暗示信息！

强化学习（五）用时序差分法（TD）求解

demi 在周五, 09/10/2021 - 14:05 提交

虽然蒙特卡罗法很灵活，不需要环境的状态转化概率模型，但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列，那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法：时序差分(Temporal-Difference, TD)。

深度学习与强化学习的两大联姻：DQN与DDPG的对比分析

demi 在周三, 12/30/2020 - 09:31 提交

Q学习（Q-Learning）算法是提出时间很早的一种异策略的时序差分学习方法；DQN 则是利用神经网络对 Q-Learning 中的值函数进行近似，并针对实际问题作出改进的方法；而 DDPG 则可以视为 DQN 对连续型动作预测的一个扩展；本文将从定义对比分析 DQN 和 DDPG ，更好地理解二者的算法区别与联系。

浅谈DP、MC、TD方法的区别与联系

demi 在周五, 06/19/2020 - 11:44 提交

Dynamic Programming, Monte Carlo, Temporal Difference是强化学习过程中最基础的三种算法，本文主要总结一下这三种方法的区别与联系；强化学习模型本质上是一个随机过程，可以用概率图模型来描述，就像 HMM 可以使用有向图来描述，马尔可夫网可以使用无向图来描述，强化学习对应的图模型是Finite Markov Decision Process（MDP）

机器学习经典算法总结：强化学习

demi 在周四, 05/21/2020 - 15:38 提交

强化学习模型根据输入学习一系列动作（action），而不同的动作会逐渐累计起来，在某些时候就会得到一些奖赏（reward）。执行某个动作并不能立即获得这个最终奖赏，只能得到一个当前反馈。机器要做的是通过在环境中不断尝试而学得一个策略（policy）。

1
2
next
last