Tagged

TRPO

Aug 26, 2025 Reinforcement Learning 15 min read

强化学习(六):PPO与TRPO:信任域策略优化

PPO和TRPO的完整推导:从策略优化的不稳定性到信任域约束,PPO的裁剪技巧,以及PPO在RLHF中的关键角色。