强化学习（三）：Policy Gradient 与 Actor-Critic 方法

Mon, 11 Aug 2025 09:00:00 +0000

DQN 证明了深度强化学习能够成功解决 Atari 游戏，但其能力存在明显局限：仅适用于离散动作空间。若用于控制具有七个连续关节角度的机械臂，则会完全失效——因为每一步动作选择都需要额外求解一个内部优化问题。

TD3 on Chen Kai Blog