<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>RLHF on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/rlhf/</link><description>Recent content in RLHF on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Mon, 30 Mar 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/rlhf/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型工程（四）：SFT、DPO 与 RLHF</title><link>https://www.chenk.top/zh/llm-engineering/04-post-training/</link><pubDate>Mon, 30 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/04-post-training/</guid><description>&lt;p>预训练得到的基座模型只能续写文本，而听懂指令、拒绝有害请求、维持人设等能力，则属于后训练阶段的任务——这也正是论文宣称的效果与真正生产级模型之间差距最大的地方。本章将深入探讨各类后训练算法究竟在优化什么、为什么大多数奖励模型其实存在隐性缺陷，以及到 2026 年真正行之有效的实践方法。&lt;/p></description></item><item><title>强化学习（十二）：RLHF 与大语言模型应用</title><link>https://www.chenk.top/zh/reinforcement-learning/12-rlhf%E4%B8%8E%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8/</link><pubDate>Thu, 25 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/12-rlhf%E4%B8%8E%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8/</guid><description>&lt;p>GPT-3（2020 年 6 月）和 ChatGPT（2022 年 11 月）共享了大部分权重。基础模型能写出流畅的散文、补全代码，也能续写任意给定的模式；但当你直接问它一个简单问题时，它却可能喋喋不休、以错误理由拒绝回答、编造虚假引用，甚至输出有害内容。从 GPT-3 到 ChatGPT 的两年半时间，并没有花在扩大 Transformer 规模上，而是聚焦于一个更根本的问题：&lt;strong>如何让模型真正有用&lt;/strong>——而这本质上是一个强化学习问题。&lt;/p></description></item><item><title>强化学习（六）：PPO 与 TRPO —— 信任域策略优化</title><link>https://www.chenk.top/zh/reinforcement-learning/06-ppo%E4%B8%8Etrpo-%E4%BF%A1%E4%BB%BB%E5%9F%9F%E7%AD%96%E7%95%A5%E4%BC%98%E5%8C%96/</link><pubDate>Tue, 26 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/06-ppo%E4%B8%8Etrpo-%E4%BF%A1%E4%BB%BB%E5%9F%9F%E7%AD%96%E7%95%A5%E4%BC%98%E5%8C%96/</guid><description>&lt;p>策略梯度（第三部分）直接优化策略，绕开了离散的 &lt;code>argmax&lt;/code> 操作，还能自然处理随机策略。但它存在一个致命缺陷：&lt;strong>一次过大的更新就可能彻底摧毁策略&lt;/strong>。更糟的是，由于数据分布与策略紧密耦合，一旦崩溃，几乎无法恢复。&lt;/p></description></item></channel></rss>