chenk
.
top
Home
Series
Projects
Archives
About
EN
esc
Search articles, series, and tags…
Tagged
信任域
Aug 26, 2025
Reinforcement Learning
15 min read
强化学习(六):PPO与TRPO:信任域策略优化
PPO和TRPO的完整推导:从策略优化的不稳定性到信任域约束,PPO的裁剪技巧,以及PPO在RLHF中的关键角色。