强化学习（十二）：RLHF 与大语言模型应用

Thu, 25 Sep 2025 09:00:00 +0000

GPT-3（2020 年 6 月）和 ChatGPT（2022 年 11 月）共享了大部分权重。基础模型能写出流畅的散文、补全代码，也能续写任意给定的模式；但当你直接问它一个简单问题时，它却可能喋喋不休、以错误理由拒绝回答、编造虚假引用，甚至输出有害内容。从 GPT-3 到 ChatGPT 的两年半时间，并没有花在扩大 Transformer 规模上，而是聚焦于一个更根本的问题：如何让模型真正有用——而这本质上是一个强化学习问题。

LLM Alignment on Chen Kai Blog

强化学习（十二）：RLHF 与大语言模型应用