强化学习 | 电子创新网 Imgtec 社区

强化学习（Reinforcement Learning，RL）是一种机器学习范式，旨在使智能体通过与环境的交互来学习如何在某个任务中做出决策。强化学习的核心思想是通过试错来学习，通过获得奖励或惩罚来调整其行为，以最大化长期累积的奖励。

算力+AI：工业智造的新引擎

demi 在周四, 11/13/2025 - 15:34 提交

让我们一起来看看算力与AI是如何在工业领域大放异彩的。

demi 在周三, 10/15/2025 - 11:06 提交

本文总结了《State of AI Report》权威报告中的 AI 的最新进展，理解这些维度，有助于我们把握 AI 的发展方向及其对未来的意义。

demi 在周三, 08/13/2025 - 14:20 提交

算法各有千秋，选择合适的算法需要考虑问题的特性、动作和状态空间的维度、以及是否需要保护数据隐私等因素。

demi 在周二, 05/27/2025 - 14:33 提交

深度学习能够通过其强大的特征提取和模式识别能力，为网络安全提供新的解决方案。

demi 在周二, 07/09/2024 - 09:45 提交

强化学习是监督的还是无监督的？虽然这个技术问题很重要，但让我们把重点转向商业视角。强化学习(RL)在改变各行业的决策过程和优化战略方面具有巨大的潜力。

demi 在周三, 06/26/2024 - 10:57 提交

机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。

demi 在周三, 03/20/2024 - 10:37 提交

强化学习又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

demi 在周三, 12/20/2023 - 14:32 提交

在人工智能领域，强化学习是一种重要的学习方法……

demi 在周四, 11/04/2021 - 18:41 提交

强化学习的AI在对抗游戏中表现十分强力，但被虐的只有人类玩家。如果这么强的AI做了队友又该怎么样？MIT最近研究表明，AI和人类玩家之间的配合可以说是没有配合了，根本看不懂队友给的各种暗示信息！

demi 在周五, 09/10/2021 - 14:05 提交

虽然蒙特卡罗法很灵活，不需要环境的状态转化概率模型，但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列，那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法：时序差分(Temporal-Difference, TD)。