标签

DPO

Mar 30, 2026 大模型工程 50 分钟

大模型工程（四）：SFT、DPO 与 RLHF

SFT、DPO、RLHF、RLAIF 各自具体在优化什么，奖励模型在哪里失败，KL 约束的作用，LoRA vs 全量微调那场争论，以及 2026 年生产里实际跑的 post-training 配方。

Sep 25, 2025 强化学习 34 分钟

强化学习（十二）：RLHF 与大语言模型应用

RLHF 把基础语言模型变成 ChatGPT 与 Claude 的完整路径：SFT→奖励模型→PPO 三阶段流程、Bradley-Terry 偏好模型、DPO 闭式解推导、RLAIF 与 Constitutional AI、Goodhart 定律下的奖励黑客，以及强化学习在具身智能与推理时搜索中的下一步。