<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>DPO on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/dpo/</link><description>Recent content in DPO on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Mon, 30 Mar 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/dpo/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型工程（四）：SFT、DPO 与 RLHF</title><link>https://www.chenk.top/zh/llm-engineering/04-post-training/</link><pubDate>Mon, 30 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/04-post-training/</guid><description>&lt;p>预训练得到的基座模型只能续写文本，而听懂指令、拒绝有害请求、维持人设等能力，则属于后训练阶段的任务——这也正是论文宣称的效果与真正生产级模型之间差距最大的地方。本章将深入探讨各类后训练算法究竟在优化什么、为什么大多数奖励模型其实存在隐性缺陷，以及到 2026 年真正行之有效的实践方法。&lt;/p></description></item><item><title>强化学习（十二）：RLHF 与大语言模型应用</title><link>https://www.chenk.top/zh/reinforcement-learning/12-rlhf%E4%B8%8E%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8/</link><pubDate>Thu, 25 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/12-rlhf%E4%B8%8E%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8/</guid><description>&lt;p>GPT-3（2020 年 6 月）和 ChatGPT（2022 年 11 月）共享了大部分权重。基础模型能写出流畅的散文、补全代码，也能续写任意给定的模式；但当你直接问它一个简单问题时，它却可能喋喋不休、以错误理由拒绝回答、编造虚假引用，甚至输出有害内容。从 GPT-3 到 ChatGPT 的两年半时间，并没有花在扩大 Transformer 规模上，而是聚焦于一个更根本的问题：&lt;strong>如何让模型真正有用&lt;/strong>——而这本质上是一个强化学习问题。&lt;/p></description></item></channel></rss>