Reinforcement-Learning on Chen Kai Blog

强化学习（十二）：RLHF 与大语言模型应用

Thu, 25 Sep 2025 09:00:00 +0000

GPT-3（2020 年 6 月）和 ChatGPT（2022 年 11 月）共享了大部分权重。基础模型能写出流畅的散文、补全代码，也能续写任意给定的模式；但当你直接问它一个简单问题时，它却可能喋喋不休、以错误理由拒绝回答、编造虚假引用，甚至输出有害内容。从 GPT-3 到 ChatGPT 的两年半时间，并没有花在扩大 Transformer 规模上，而是聚焦于一个更根本的问题：如何让模型真正有用——而这本质上是一个强化学习问题。

强化学习（十一）：层次化强化学习与元学习

Sat, 20 Sep 2025 09:00:00 +0000

标准强化学习将每个问题视为一系列原子级别的决策：观察状态、选择动作、接收奖励，然后重复。这种方法在任务时间跨度较短、奖励密集时效果不错，但面对人类能轻松完成的任务时就会失效。“做早餐”显然不是单次决策，而是一棵由多个子任务组成的树——煮咖啡、煎蛋、烤面包、装盘上桌——每个子任务本身都是一套小型策略。层次化强化学习（HRL） 的核心思想是将宏动作视为一等公民，让智能体能在多个时间尺度上进行推理和行动。

强化学习（十）：离线强化学习

Mon, 15 Sep 2025 09:00:00 +0000

到目前为止，我们学过的所有算法都遵循同一个核心循环：行动、观察、更新。这个循环让强化学习得以运转，却也恰恰阻碍了它在现实世界中的部署。自动驾驶系统不可能靠撞车来练习通过路口；临床决策支持模型不能在真实患者身上随意尝试随机策略；工厂里的机械臂也无法在产线上反复测试上万种抓取方式。

强化学习（九）：多智能体强化学习

Wed, 10 Sep 2025 09:00:00 +0000

单智能体强化学习（RL）有一个隐含但极其重要的假设：环境是静态的，转移核不会因智能体的学习而改变。然而，一旦出现第二个学习者，这个假设就彻底失效了。每个智能体面对的环境动力学会随着其他智能体策略的更新而持续变化，奖励信号在智能体之间高度耦合，联合动作空间更是呈组合爆炸式增长。这些问题并非工程上的小麻烦，而是多智能体强化学习（MARL）必须发展专属算法的根本原因——简单地“并行跑 n 个 DQN”是行不通的。

强化学习（八）：AlphaGo 与蒙特卡洛树搜索

Fri, 05 Sep 2025 09:00:00 +0000

2016 年 3 月，AlphaGo 在首尔以 4 比 1 击败了围棋世界冠军李世石。这不仅是一场体育赛事的爆冷，更标志着人工智能领域一个长达 60 年的目标——让机器击败人类顶尖围棋选手——比大多数预测提前整整十年达成。围棋的合法局面数约为 $10^{170}$ ，远超可观测宇宙中的原子总数。无论多少暴力搜索都无法破解它。AlphaGo 的胜利源于一种全新思路：用深度神经网络提供“哪些着法值得尝试”的直觉，再由蒙特卡洛树搜索（MCTS）进行深思熟虑式的推演，验证并精炼这种直觉。

强化学习（七）：模仿学习与逆强化学习

Sun, 31 Aug 2025 09:00:00 +0000

之前的所有算法都默认能够获取奖励函数，但在实际项目中，设计奖励函数往往是最大的难点。试着用一段话描述“像谨慎的人类一样开车”、“像裁缝那样叠衬衫”，或者“像专业编辑那样总结文档”——你会发现，演示这些行为远比明确指定它们容易得多。

强化学习（六）：PPO 与 TRPO —— 信任域策略优化

Tue, 26 Aug 2025 09:00:00 +0000

策略梯度（第三部分）直接优化策略，绕开了离散的 argmax 操作，还能自然处理随机策略。但它存在一个致命缺陷：一次过大的更新就可能彻底摧毁策略。更糟的是，由于数据分布与策略紧密耦合，一旦崩溃，几乎无法恢复。

强化学习（五）：Model-Based 强化学习与世界模型

Thu, 21 Aug 2025 09:00:00 +0000

到目前为止，我们介绍的所有算法——DQN、REINFORCE、A2C、PPO、SAC——都属于 Model-Free（无模型）类型。智能体将环境视为黑盒，不断尝试动作并根据返回的奖励更新策略，完全不关心环境内部如何运作。这种方法确实有效，但代价高昂：DQN 需要大约 1000 万帧才能掌握 Atari Pong；OpenAI Five 在 Dota 2 上的训练量相当于 约 4.5 万年的自我对弈；AlphaStar 则消耗了数年的 StarCraft 对局数据来训练单个智能体。

强化学习（四）：探索策略与好奇心驱动学习

Sat, 16 Aug 2025 09:00:00 +0000

将一个全新的智能体放入《蒙特祖玛的复仇》中。要拿到第一分，它必须精确地完成一系列动作：向右走、跳过骷髅、爬上绳子、跳到平台并最终抓起钥匙——这一百个动作中任何一个出错都会导致失败。在拿到钥匙之前，环境给出的奖励始终为 0。

强化学习（三）：Policy Gradient 与 Actor-Critic 方法

Mon, 11 Aug 2025 09:00:00 +0000

DQN 证明了深度强化学习能够成功解决 Atari 游戏，但其能力存在明显局限：仅适用于离散动作空间。若用于控制具有七个连续关节角度的机械臂，则会完全失效——因为每一步动作选择都需要额外求解一个内部优化问题。

强化学习（二）：Q-Learning 与深度 Q 网络（DQN）

Wed, 06 Aug 2025 09:00:00 +0000

2013 年 12 月，DeepMind 的一个小团队在 arXiv 上发布了一篇论文，提出了一个令人震撼的成果：一个神经网络仅凭原始像素和游戏得分，就学会了玩七款 Atari 游戏，并在其中六款上超越了此前的最佳表现。没有针对特定游戏设计的特征，也没有手工编写的启发式规则——Pong、Breakout 和 Space Invaders 全都使用同一套架构。这个算法就是 Deep Q-Network（DQN），它正式拉开了深度强化学习时代的序幕。

强化学习（一）：基础与核心概念

Fri, 01 Aug 2025 09:00:00 +0000

第一次骑自行车时，没人会给你一本手册，上面写着“倾角超过 7.4 度时，反向打方向 12%”。你只能自己摸索：晃一下、过调一下、摔倒、爬起来再试。几百次尝试后，身体自然就掌握了骑车的技巧，尽管你可能说不清具体原因。