标签
RLHF
大模型工程(四):SFT、DPO 与 RLHF
SFT、DPO、RLHF、RLAIF 各自具体在优化什么,奖励模型在哪里失败,KL 约束的作用,LoRA vs 全量微调那场争论,以及 2026 年生产里实际跑的 post-training 配方。
强化学习(十二):RLHF 与大语言模型应用
RLHF 把基础语言模型变成 ChatGPT 与 Claude 的完整路径:SFT→奖励模型→PPO 三阶段流程、Bradley-Terry 偏好模型、DPO 闭式解推导、RLAIF 与 Constitutional AI、Goodhart 定律下的奖励黑客,以及强化学习在具身智能与推理时搜索中的下一步。
强化学习(六):PPO 与 TRPO —— 信任域策略优化
PPO 和 TRPO 的完整推导:从策略优化的不稳定性到信任域约束,PPO 的裁剪技巧,以及 PPO 在 RLHF 中的关键角色。


