标签

Post-Training

Mar 30, 2026 大模型工程 46 分钟

大模型工程(四):SFT、DPO 与 RLHF

SFT、DPO、RLHF、RLAIF 各自具体在优化什么,奖励模型在哪里失败,KL 约束的作用,LoRA vs 全量微调那场争论,以及 2026 年生产里实际跑的 post-training 配方。