chenk
.
top
首页
系列
项目
归档
关于
EN
esc
搜索
标签
Post-Training
Mar 30, 2026
大模型工程
46 分钟
大模型工程(四):SFT、DPO 与 RLHF
SFT、DPO、RLHF、RLAIF 各自具体在优化什么,奖励模型在哪里失败,KL 约束的作用,LoRA vs 全量微调那场争论,以及 2026 年生产里实际跑的 post-training 配方。