Reinforcement Learning on Chen Kai Blog

强化学习（十二）：RLHF与大语言模型应用

Thu, 25 Sep 2025 09:00:00 +0000

GPT-3（2020 年 6 月）和 ChatGPT（2022 年 11 月）共享了大部分权重。基础模型能写流畅的散文、补全代码、续写任何模式——但你直接问它一个问题，它会东拉西扯、用错误的理由拒绝、编造引用，或者直接生成一段有毒内容。两年半的时间没有花在更大的 Transformer 上，而是花在教模型怎么变得有用——而这件事，最终被证明是一个强化学习问题。

强化学习（十一）：层次化强化学习与元学习

Sat, 20 Sep 2025 09:00:00 +0000

普通强化学习把每个问题都当作一串"原子动作"在做：观察状态、选动作、拿奖励，循环往复。这种做法在短回合、稠密奖励的玩具任务上还能凑合，但一旦遇到人类觉得"轻而易举"的真实任务就立刻露怯。“做一顿早餐"显然不是一次决策，而是一棵子任务树——煮咖啡、煎蛋、烤面包、装盘上桌——每个分支本身就是一个小策略。层次化强化学习（HRL） 让智能体把宏动作（macro-action）当成一等公民，从而能在多个时间尺度上同时思考和行动。

强化学习（十）：离线强化学习

Mon, 15 Sep 2025 09:00:00 +0000

到目前为止，我们学过的每一个 RL 算法都依赖同一个循环：行动—观察—更新。这个循环让 RL 能够工作，但也让它在很多场景里根本无法落地。自动驾驶不能靠真实撞车来学习路口的处理；医疗决策模型不能在病人身上跑随机策略；产线上的机器人没有几千次失败抓取可以浪费。

强化学习（九）：多智能体强化学习

Wed, 10 Sep 2025 09:00:00 +0000

单智能体 RL 有一个安静却影响深远的前提：环境是稳态的，转移核不会因为智能体在学习而改变。但只要有第二个学习者出现，这个前提立刻崩塌——每个智能体看到的环境动力学，会随同伴的更新而漂移；奖励在智能体之间彼此纠缠；联合动作空间随人数指数膨胀。这些都不是工程小麻烦，而是为什么多智能体 RL（MARL）需要自己的一整套算法、而不是简单地"并行跑 n 个 DQN"。

强化学习（八）：AlphaGo与蒙特卡洛树搜索

Fri, 05 Sep 2025 09:00:00 +0000

2016 年 3 月，AlphaGo 在首尔以 4–1 击败了围棋世界冠军李世石。这不只是一场体育新闻——它给"让机器在围棋上击败人类顶尖棋手"这个延续了 60 年的人工智能命题画上了句号，比绝大多数学界预测早了整整十年。围棋约有 $10^{170}$ 种合法局面，比可观测宇宙的原子总数还多，纯靠暴力搜索没有任何机会。AlphaGo 的胜利来自一个不一样的思路：让深度网络给出"哪些着法看起来不错"的直觉，再让蒙特卡洛树搜索（MCTS）来推演，去验证、修正这种直觉。

强化学习（七）：模仿学习与逆强化学习

Sun, 31 Aug 2025 09:00:00 +0000

之前章节里所有算法的前提，都是已经有一个奖励函数。但在工程实践中，写出那个奖励函数本身往往才是最难的一步。“像一个有经验的老司机一样开车”、“像一个裁缝一样把衬衫叠整齐”、“像一个资深编辑一样把这篇文档总结一下”——这类任务你能轻易演示，却很难一段话写清楚。

强化学习（六）：PPO与TRPO：信任域策略优化

Tue, 26 Aug 2025 09:00:00 +0000

策略梯度（参见第三篇）直接对策略本身求导，绕开了离散 argmax，能自然处理连续动作和随机策略。但它有一个致命缺陷——走错一步就可能毁掉整个策略，而且因为采样分布跟着策略一起变，回头几乎不可能。

强化学习（五）：Model-Based强化学习与世界模型

Thu, 21 Aug 2025 09:00:00 +0000

到目前为止介绍过的所有算法——DQN、REINFORCE、A2C、PPO、SAC——本质上都是 Model-Free 的：智能体把环境当成黑盒，扔动作、收奖励、更新策略，从来不去理解环境到底是怎么运作的。这条路走得通，但极其奢侈：DQN 在 Atari Pong 上要 1000 万帧才能精通，OpenAI Five 在 Dota 2 上自我对弈了相当于 45000 年的游戏时间，AlphaStar 也是按"年"来烧 StarCraft 的样本。

强化学习（四）：探索策略与好奇心驱动学习

Sat, 16 Aug 2025 09:00:00 +0000

把一个新出生的 Agent 丢进 Atari 游戏《蒙特祖玛的复仇》。要拿到游戏中的第一分，它必须向右走、跳过头骨、抓住绳子、再跳到台子上、最后捡起钥匙——大约 一百个连续动作不能错。在钥匙到手之前，环境给出的奖励一直是 0。

强化学习（三）：Policy Gradient与Actor-Critic方法

Mon, 11 Aug 2025 09:00:00 +0000

DQN 证明了深度强化学习能玩转 Atari，但它有一个硬上限：只能处理离散动作空间。让它去控制一只七自由度机械臂的关节角度，立刻就垮了——你得在每一步动作之前先解一个内层优化问题。

强化学习（二）：Q-Learning 与深度 Q 网络（DQN）

Wed, 06 Aug 2025 09:00:00 +0000

2013 年 12 月，DeepMind 一支不大的团队在 arXiv 上挂出了一篇短论文，里面有一个相当扎眼的结论：同一个神经网络，仅仅以原始像素和分数为输入，就学会了七款 Atari 游戏，并在其中六款上刷新了当时的最好成绩。没有针对游戏专门设计的特征，没有手写的启发式规则，Pong、Breakout、Space Invaders 共用同一套架构。这套算法叫深度 Q 网络（Deep Q-Network, DQN），它正式拉开了深度强化学习时代的序幕。

强化学习（一）：基础与核心概念

Fri, 01 Aug 2025 09:00:00 +0000

第一次坐上自行车的时候，没有人会塞给你一本说明书写着"如果倾角超过 7.4 度，请反向打方向 12%"。你只是不停地试：晃一下、过校一下、摔一跤、爬起来再试。试上几百次以后，身体就"自己知道"该怎么骑了，哪怕你说不出原因。