PPO on Chen Kai Blog

强化学习（六）：PPO 与 TRPO —— 信任域策略优化

Tue, 26 Aug 2025 09:00:00 +0000

策略梯度（第三部分）直接优化策略，绕开了离散的 argmax 操作，还能自然处理随机策略。但它存在一个致命缺陷：一次过大的更新就可能彻底摧毁策略。更糟的是，由于数据分布与策略紧密耦合，一旦崩溃，几乎无法恢复。

Mon, 11 Aug 2025 09:00:00 +0000

DQN 证明了深度强化学习能够成功解决 Atari 游戏，但其能力存在明显局限：仅适用于离散动作空间。若用于控制具有七个连续关节角度的机械臂，则会完全失效——因为每一步动作选择都需要额外求解一个内部优化问题。