<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Reinforcement Learning on Chen Kai Blog</title><link>https://www.chenk.top/zh/reinforcement-learning/</link><description>Recent content in Reinforcement Learning on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 25 Sep 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/reinforcement-learning/index.xml" rel="self" type="application/rss+xml"/><item><title>强化学习（十二）：RLHF与大语言模型应用</title><link>https://www.chenk.top/zh/reinforcement-learning/12-rlhf%E4%B8%8E%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8/</link><pubDate>Thu, 25 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/12-rlhf%E4%B8%8E%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8/</guid><description>&lt;p>GPT-3（2020 年 6 月）和 ChatGPT（2022 年 11 月）共享了大部分权重。基础模型能写流畅的散文、补全代码、续写任何模式——但你直接问它一个问题，它会东拉西扯、用错误的理由拒绝、编造引用，或者直接生成一段有毒内容。两年半的时间没有花在更大的 Transformer 上，而是花在&lt;strong>教模型怎么变得有用&lt;/strong>——而这件事，最终被证明是一个强化学习问题。&lt;/p></description></item><item><title>强化学习（十一）：层次化强化学习与元学习</title><link>https://www.chenk.top/zh/reinforcement-learning/11-%E5%B1%82%E6%AC%A1%E5%8C%96%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E4%B8%8E%E5%85%83%E5%AD%A6%E4%B9%A0/</link><pubDate>Sat, 20 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/11-%E5%B1%82%E6%AC%A1%E5%8C%96%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E4%B8%8E%E5%85%83%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>普通强化学习把每个问题都当作一串&amp;quot;原子动作&amp;quot;在做：观察状态、选动作、拿奖励，循环往复。这种做法在短回合、稠密奖励的玩具任务上还能凑合，但一旦遇到人类觉得&amp;quot;轻而易举&amp;quot;的真实任务就立刻露怯。&amp;ldquo;做一顿早餐&amp;quot;显然不是一次决策，而是一棵子任务树——&lt;em>煮咖啡、煎蛋、烤面包、装盘上桌&lt;/em>——每个分支本身就是一个小策略。&lt;strong>层次化强化学习（HRL）&lt;/strong> 让智能体把宏动作（macro-action）当成一等公民，从而能在多个时间尺度上同时思考和行动。&lt;/p></description></item><item><title>强化学习（十）：离线强化学习</title><link>https://www.chenk.top/zh/reinforcement-learning/10-%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><pubDate>Mon, 15 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/10-%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>到目前为止，我们学过的每一个 RL 算法都依赖同一个循环：行动—观察—更新。这个循环让 RL 能够工作，但也让它在很多场景里根本无法落地。自动驾驶不能靠真实撞车来学习路口的处理；医疗决策模型不能在病人身上跑随机策略；产线上的机器人没有几千次失败抓取可以浪费。&lt;/p></description></item><item><title>强化学习（九）：多智能体强化学习</title><link>https://www.chenk.top/zh/reinforcement-learning/09-%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><pubDate>Wed, 10 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/09-%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>单智能体 RL 有一个安静却影响深远的前提：环境是稳态的，转移核不会因为智能体在学习而改变。但只要有第二个学习者出现，这个前提立刻崩塌——每个智能体看到的环境动力学，会随同伴的更新而漂移；奖励在智能体之间彼此纠缠；联合动作空间随人数指数膨胀。这些都不是工程小麻烦，而是为什么多智能体 RL（MARL）需要自己的一整套算法、而不是简单地&amp;quot;并行跑 n 个 DQN&amp;quot;。&lt;/p></description></item><item><title>强化学习（八）：AlphaGo与蒙特卡洛树搜索</title><link>https://www.chenk.top/zh/reinforcement-learning/08-alphago%E4%B8%8E%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B%E6%A0%91%E6%90%9C%E7%B4%A2/</link><pubDate>Fri, 05 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/08-alphago%E4%B8%8E%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B%E6%A0%91%E6%90%9C%E7%B4%A2/</guid><description>&lt;p>2016 年 3 月，AlphaGo 在首尔以 4–1 击败了围棋世界冠军李世石。这不只是一场体育新闻——它给&amp;quot;让机器在围棋上击败人类顶尖棋手&amp;quot;这个延续了 60 年的人工智能命题画上了句号，比绝大多数学界预测早了整整十年。围棋约有 $10^{170}$ 种合法局面，比可观测宇宙的原子总数还多，纯靠暴力搜索没有任何机会。AlphaGo 的胜利来自一个不一样的思路：让深度网络给出&amp;quot;哪些着法看起来不错&amp;quot;的&lt;em>直觉&lt;/em>，再让蒙特卡洛树搜索（MCTS）来&lt;em>推演&lt;/em>，去验证、修正这种直觉。&lt;/p></description></item><item><title>强化学习（七）：模仿学习与逆强化学习</title><link>https://www.chenk.top/zh/reinforcement-learning/07-%E6%A8%A1%E4%BB%BF%E5%AD%A6%E4%B9%A0%E4%B8%8E%E9%80%86%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><pubDate>Sun, 31 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/07-%E6%A8%A1%E4%BB%BF%E5%AD%A6%E4%B9%A0%E4%B8%8E%E9%80%86%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>之前章节里所有算法的前提，都是已经有一个奖励函数。但在工程实践中，&lt;strong>写出那个奖励函数本身往往才是最难的一步&lt;/strong>。&amp;ldquo;像一个有经验的老司机一样开车&amp;rdquo;、&amp;ldquo;像一个裁缝一样把衬衫叠整齐&amp;rdquo;、&amp;ldquo;像一个资深编辑一样把这篇文档总结一下&amp;rdquo;——这类任务你能轻易&lt;strong>演示&lt;/strong>，却很难一段话&lt;strong>写清楚&lt;/strong>。&lt;/p></description></item><item><title>强化学习（六）：PPO与TRPO：信任域策略优化</title><link>https://www.chenk.top/zh/reinforcement-learning/06-ppo%E4%B8%8Etrpo-%E4%BF%A1%E4%BB%BB%E5%9F%9F%E7%AD%96%E7%95%A5%E4%BC%98%E5%8C%96/</link><pubDate>Tue, 26 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/06-ppo%E4%B8%8Etrpo-%E4%BF%A1%E4%BB%BB%E5%9F%9F%E7%AD%96%E7%95%A5%E4%BC%98%E5%8C%96/</guid><description>&lt;p>策略梯度（参见第三篇）直接对策略本身求导，绕开了离散 &lt;code>argmax&lt;/code>，能自然处理连续动作和随机策略。但它有一个致命缺陷——&lt;strong>走错一步就可能毁掉整个策略&lt;/strong>，而且因为采样分布跟着策略一起变，回头几乎不可能。&lt;/p></description></item><item><title>强化学习（五）：Model-Based强化学习与世界模型</title><link>https://www.chenk.top/zh/reinforcement-learning/05-model-based%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E4%B8%8E%E4%B8%96%E7%95%8C%E6%A8%A1%E5%9E%8B/</link><pubDate>Thu, 21 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/05-model-based%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E4%B8%8E%E4%B8%96%E7%95%8C%E6%A8%A1%E5%9E%8B/</guid><description>&lt;p>到目前为止介绍过的所有算法——DQN、REINFORCE、A2C、PPO、SAC——本质上都是 &lt;strong>Model-Free&lt;/strong> 的：智能体把环境当成黑盒，扔动作、收奖励、更新策略，从来不去理解环境到底是怎么运作的。这条路走得通，但极其奢侈：DQN 在 Atari Pong 上要 &lt;strong>1000 万帧&lt;/strong>才能精通，OpenAI Five 在 Dota 2 上自我对弈了相当于 &lt;strong>45000 年&lt;/strong>的游戏时间，AlphaStar 也是按&amp;quot;年&amp;quot;来烧 StarCraft 的样本。&lt;/p></description></item><item><title>强化学习（四）：探索策略与好奇心驱动学习</title><link>https://www.chenk.top/zh/reinforcement-learning/04-%E6%8E%A2%E7%B4%A2%E7%AD%96%E7%95%A5%E4%B8%8E%E5%A5%BD%E5%A5%87%E5%BF%83%E9%A9%B1%E5%8A%A8%E5%AD%A6%E4%B9%A0/</link><pubDate>Sat, 16 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/04-%E6%8E%A2%E7%B4%A2%E7%AD%96%E7%95%A5%E4%B8%8E%E5%A5%BD%E5%A5%87%E5%BF%83%E9%A9%B1%E5%8A%A8%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>把一个新出生的 Agent 丢进 Atari 游戏《蒙特祖玛的复仇》。要拿到游戏中的第一分，它必须向右走、跳过头骨、抓住绳子、再跳到台子上、最后捡起钥匙——大约 &lt;strong>一百个连续动作不能错&lt;/strong>。在钥匙到手之前，环境给出的奖励一直是 0。&lt;/p></description></item><item><title>强化学习（三）：Policy Gradient与Actor-Critic方法</title><link>https://www.chenk.top/zh/reinforcement-learning/03-policy-gradient%E4%B8%8Eactor-critic%E6%96%B9%E6%B3%95/</link><pubDate>Mon, 11 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/03-policy-gradient%E4%B8%8Eactor-critic%E6%96%B9%E6%B3%95/</guid><description>&lt;p>DQN 证明了深度强化学习能玩转 Atari，但它有一个硬上限：&lt;strong>只能处理离散动作空间&lt;/strong>。让它去控制一只七自由度机械臂的关节角度，立刻就垮了——你得在每一步动作之前先解一个内层优化问题。&lt;/p></description></item><item><title>强化学习（二）：Q-Learning 与深度 Q 网络（DQN）</title><link>https://www.chenk.top/zh/reinforcement-learning/02-q-learning%E4%B8%8E%E6%B7%B1%E5%BA%A6q%E7%BD%91%E7%BB%9C/</link><pubDate>Wed, 06 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/02-q-learning%E4%B8%8E%E6%B7%B1%E5%BA%A6q%E7%BD%91%E7%BB%9C/</guid><description>&lt;p>2013 年 12 月，DeepMind 一支不大的团队在 arXiv 上挂出了一篇短论文，里面有一个相当扎眼的结论：同一个神经网络，仅仅以原始像素和分数为输入，就学会了七款 Atari 游戏，并在其中六款上刷新了当时的最好成绩。没有针对游戏专门设计的特征，没有手写的启发式规则，Pong、Breakout、Space Invaders 共用同一套架构。这套算法叫&lt;strong>深度 Q 网络（Deep Q-Network, DQN）&lt;/strong>，它正式拉开了深度强化学习时代的序幕。&lt;/p></description></item><item><title>强化学习（一）：基础与核心概念</title><link>https://www.chenk.top/zh/reinforcement-learning/01-%E5%9F%BA%E7%A1%80%E4%B8%8E%E6%A0%B8%E5%BF%83%E6%A6%82%E5%BF%B5/</link><pubDate>Fri, 01 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/01-%E5%9F%BA%E7%A1%80%E4%B8%8E%E6%A0%B8%E5%BF%83%E6%A6%82%E5%BF%B5/</guid><description>&lt;p>第一次坐上自行车的时候，没有人会塞给你一本说明书写着&amp;quot;如果倾角超过 7.4 度，请反向打方向 12%&amp;quot;。你只是不停地试：晃一下、过校一下、摔一跤、爬起来再试。试上几百次以后，身体就&amp;quot;自己知道&amp;quot;该怎么骑了，哪怕你说不出原因。&lt;/p></description></item></channel></rss>