标签

PPO

Aug 26, 2025 强化学习 26 分钟

强化学习（六）：PPO 与 TRPO —— 信任域策略优化

PPO 和 TRPO 的完整推导：从策略优化的不稳定性到信任域约束，PPO 的裁剪技巧，以及 PPO 在 RLHF 中的关键角色。

Aug 11, 2025 强化学习 20 分钟

强化学习（三）：Policy Gradient 与 Actor-Critic 方法

从 REINFORCE 到 SAC——策略梯度方法如何直接优化策略，自然处理连续动作，驱动 PPO、TD3 和 SAC 等现代算法。