Tagged

DPO

Sep 25, 2025 Reinforcement Learning 2 min read

强化学习(十二):RLHF与大语言模型应用

RLHF 把基础语言模型变成 ChatGPT 与 Claude 的完整路径:SFT→奖励模型→PPO 三阶段流程、Bradley-Terry 偏好模型、DPO 闭式解推导、RLAIF 与 Constitutional AI、Goodhart 定律下的奖励黑客,以及强化学习在具身智能与推理时搜索中的下一步。