Tagged

信任域

Aug 26, 2025 Reinforcement Learning 15 min read

强化学习（六）：PPO与TRPO：信任域策略优化

PPO和TRPO的完整推导：从策略优化的不稳定性到信任域约束，PPO的裁剪技巧，以及PPO在RLHF中的关键角色。