chenk
.
top
首页
系列
项目
归档
关于
EN
esc
搜索
标签
TRPO
Aug 26, 2025
强化学习
26 分钟
强化学习(六):PPO 与 TRPO —— 信任域策略优化
PPO 和 TRPO 的完整推导:从策略优化的不稳定性到信任域约束,PPO 的裁剪技巧,以及 PPO 在 RLHF 中的关键角色。