RLHF on Chen Kai Blog

大模型工程（四）：SFT、DPO 与 RLHF

Mon, 30 Mar 2026 09:00:00 +0000

预训练得到的基座模型只能续写文本，而听懂指令、拒绝有害请求、维持人设等能力，则属于后训练阶段的任务——这也正是论文宣称的效果与真正生产级模型之间差距最大的地方。本章将深入探讨各类后训练算法究竟在优化什么、为什么大多数奖励模型其实存在隐性缺陷，以及到 2026 年真正行之有效的实践方法。

强化学习（十二）：RLHF 与大语言模型应用

Thu, 25 Sep 2025 09:00:00 +0000

GPT-3（2020 年 6 月）和 ChatGPT（2022 年 11 月）共享了大部分权重。基础模型能写出流畅的散文、补全代码，也能续写任意给定的模式；但当你直接问它一个简单问题时，它却可能喋喋不休、以错误理由拒绝回答、编造虚假引用，甚至输出有害内容。从 GPT-3 到 ChatGPT 的两年半时间，并没有花在扩大 Transformer 规模上，而是聚焦于一个更根本的问题：如何让模型真正有用——而这本质上是一个强化学习问题。

强化学习（六）：PPO 与 TRPO —— 信任域策略优化

Tue, 26 Aug 2025 09:00:00 +0000

策略梯度（第三部分）直接优化策略，绕开了离散的 argmax 操作，还能自然处理随机策略。但它存在一个致命缺陷：一次过大的更新就可能彻底摧毁策略。更糟的是，由于数据分布与策略紧密耦合，一旦崩溃，几乎无法恢复。