
强化学习(九):多智能体强化学习
系统讲透多智能体强化学习:马尔可夫博弈、非稳态与信用分配、CTDE 范式、值分解(VDN/QMIX)、反事实基线(COMA)、MADDPG,以及 AlphaStar 与 OpenAI Five 的联赛训练,附可运行的 QMIX 混合网络 PyTorch 实现。
单智能体强化学习(RL)有一个隐含但极其重要的假设:环境是静态的,转移核不会因智能体的学习而改变。然而,一旦出现第二个学习者,这个假设就彻底失效了。每个智能体面对的环境动力学会随着其他智能体策略的更新而持续变化,奖励信号在智能体之间高度耦合,联合动作空间更是呈组合爆炸式增长。这些问题并非工程上的小麻烦,而是多智能体强化学习(MARL)必须发展专属算法的根本原因——简单地“并行跑 n 个 DQN”是行不通的。
解决这些问题的回报极为丰厚:AlphaStar 在《星际争霸 II》天梯中达到宗师段位,OpenAI Five 在《Dota 2》中击败了世界冠军。如今,合作型 MARL 正日益成为仓储机器人调度、交通信号灯控制以及多 LLM 智能体系统的核心技术。本章将系统梳理其概念骨架——马尔可夫博弈、CTDE、值分解与反事实信用分配——并最终呈现一个轻量级的 QMIX 混合器实现,你可以直接将其嵌入自己的训练循环。
你将学到什么#
- MARL 的四大核心难题:非平稳性、信用分配、部分可观测性和可扩展性
- 必须掌握的博弈论术语:马尔可夫博弈、纳什均衡、Pareto 前沿、社会困境
- CTDE(集中训练、分散执行)为何成为主流范式
- 值分解:VDN 与 QMIX,以及确保贪心执行有效的单调性约束
- 多智能体 Actor-Critic:MADDPG(每个智能体配备一个集中式评论家)和 COMA(反事实基线)
- 通信机制:广播、稀疏通信与基于注意力的消息传递各自适用的场景
- AlphaStar 联赛的设计思路与 OpenAI Five 的大规模分布式训练工程实践
前置知识#
为什么 MARL 比单智能体 RL 更难#

奖励结构几乎决定了所有其他因素。在合作型游戏中,所有智能体共享团队奖励——例如足球配合、群体物流或《星际争霸》中的微操。竞争型游戏则是零和博弈:一方的收益即另一方的损失,此时自对弈(self-play)是最合适的工具。而最有趣的是中间地带——混合动机(一般和)游戏,如市场、交通、谈判或拥塞控制。在这些场景中,短期的个体利益往往会损害长期的集体福祉(囚徒困境就是经典的 2×2 案例,图中第三个收益矩阵也展示了这一点)。
无论在哪种设定下,以下四个障碍都会导致单智能体 RL 工具失效。
非平稳性。从智能体 $i$ 的视角看,状态转移为 $P(s' \mid s, a_i, a_{-i})$ ,其中 $a_{-i}$ 表示其他所有智能体的动作。由于训练过程中其他智能体的策略 $\pi_{-i}$ 不断更新,$i$ 所感知到的有效转移核也随之持续漂移。像 DQN 这类离策略方法假设数据生成分布固定,在 MARL 中极易发散或震荡。
信用分配。当团队在整个回合结束后只获得一个共享奖励 $r$ 时,究竟谁做出了关键贡献?若简单地共享梯度,会鼓励“搭便车”行为:一个无所作为的智能体与真正付出努力的智能体获得相同的信用。对此,反事实基线(COMA,见第 5 节 )和值分解(见第 4 节 )提供了两种原则性的解决方案。
部分可观测性。每个智能体仅能观测到自身的局部信息 $o_i$ ,执行时无法获取完整的马尔可夫状态。虽然常用循环网络配合信念状态式表示来缓解此问题,但更根本的解法是在训练架构中让集中式评论家看到比执行阶段更多的信息。
可扩展性。若有 $n$ 个智能体,每个拥有 $|A|$ 个动作,则联合动作空间大小为 $|A|^n$ 。若不利用问题结构,即便是规模适中的合作任务也会变得不可解。
应对这四大挑战的统一框架——也是本章的概念主干——正是 CTDE。
CTDE:训练用全量信息,执行靠局部观察#


CTDE 的核心思想在于不对称设计:训练时,算法可以访问全局状态和所有智能体的动作——例如一个集中式的评论家、混合器或价值函数;而在部署阶段,仅保留基于局部观测的个体策略。执行接口是分散的,但优化过程却是集中的。
CTDE 之所以有效,是因为 MARL 的难点(非平稳性、信用分配、部分可观测性)主要出现在学习阶段,而实际应用的约束(带宽有限、异步控制、隐私保护)则集中在执行阶段。CTDE 将这两类问题分而治之。如今几乎所有主流的合作型 MARL 算法——包括 VDN、QMIX、MADDPG、COMA 和 MAPPO——都属于 CTDE 范式,它们的区别仅在于集中对象的具体形式及其分解方式。
马尔可夫博弈与纳什均衡:够用就好#
$$\langle \mathcal{N}, \mathcal{S}, \{A_i\}_{i\in\mathcal{N}}, P, \{r_i\}_{i\in\mathcal{N}}, \gamma \rangle.$$ $$V_i(\pi_i^*, \pi_{-i}^*) \;\geq\; V_i(\pi_i, \pi_{-i}^*) \qquad \forall \pi_i,\, \forall i.$$纳什均衡之所以难以驾驭,主要有两点:一是通常不唯一;二是未必 Pareto 最优。但在完全合作情形下(即 $r_1 = \cdots = r_n$ ),问题大幅简化——目标退化为最大化单一团队回报,此时纳什均衡与 Pareto 最优解集重合。正因如此,本章的算法设计大多优先聚焦合作场景;竞争与混合动机情形则在此基础上叠加自对弈、对手建模或正则化等额外机制。
值分解:VDN 和 QMIX#

VDN:加性分解#
$$Q_\text{tot}(s, \mathbf{a}) \;=\; \sum_{i=1}^{n} Q_i(o_i, a_i).$$由于求和运算对每个被加项天然单调,IGM 性质自然成立。代价是表达能力受限:VDN 完全无法捕捉智能体间的非加性交互。
QMIX:单调混合#
$$\frac{\partial Q_\text{tot}}{\partial Q_i} \;\geq\; 0 \qquad \forall i.$$该约束通过构造混合网络的权重为非负来实现——例如对权重取绝对值或经 softplus 函数处理。关键在于,这些权重由一个以全局状态 $s$ 为条件的超网络生成,因此不同状态下可动态调整各智能体的权重,从而表达纯加法无法捕捉的交互关系。图右侧展示了由此得到的 $Q_\text{tot}$ 曲面:对每个 $Q_i$ 单调,因此联合 argmax 与各智能体 argmax 的组合一致。
| |
训练过程与 DQN 完全相同:采样经验转移,在 $Q_\text{tot}$ 上构建 TD 目标,并将梯度反向传播至混合器及所有个体网络。执行时,每个智能体仅运行自己的 $Q_i$ ,完全不接触混合器。
一个实用提示:QMIX 并不能表示所有满足 IGM 的可分解函数(其单调性是充分但非必要条件)。QTRAN 和 QPLEX 进一步拓展了这一边界,但代价是更复杂的损失函数与工程实现。
多智能体 Actor-Critic:MADDPG 与 COMA#
MADDPG:每个智能体一个集中式评论家#

MADDPG 是 DDPG 在 CTDE 框架下的自然延伸。每个智能体 $i$ 包含:
- 一个执行者 $\mu_i(o_i)$ ,仅依赖局部观测;
- 一个评论家 $Q_i(s, a_1, \ldots, a_n)$ ,以全局状态和所有智能体的动作作为输入。
由于评论家显式接收 $a_{-i}$ 作为输入,环境对其而言是平稳的——其输入已包含原本导致非平稳性的变量。执行者保持分散设计,部署时无需改动。MADDPG 可应用于合作、竞争及混合动机场景,回放池只需存储联合轨迹。
COMA:反事实信用分配#

仔细理解:第一项是实际发生的价值;第二项是在其他人动作不变的前提下,$i$ 若采取其他动作的期望价值。二者之差即为 $i$ 的边际贡献。当团队奖励共享时,这正是策略梯度应优化的目标——它剔除了 $a_{-i}$ 引入的噪声,且无偏。图中四动作示例显示:仅被选中的动作获得非零优势值。
COMA 的高效性源于一个技巧:集中式评论家一次性输出智能体 $i$ 所有可能动作的 $Q$ 值向量,因此基线计算仅需一次策略概率与该向量的点积,无需额外环境交互。
通信:智能体之间该交流多少?#

有时,完全分散执行过于严苛——测试阶段智能体确实需要交换信息。设计空间构成一个连续谱系。
广播:每个智能体向其余所有智能体发送固定长度消息。概念清晰,但消息量随智能体数按 $O(n^2)$ 增长,超过几十个智能体便难以承受。
稀疏 / k-NN:每个智能体仅与 $k$ 个最近邻通信(可基于空间、图结构或角色)。固定 $k$ 时,复杂度为线性。CommNet、IC3Net 和 TarMAC 均属此类。
注意力:采用软路由、可学习的机制。每个智能体发出查询,其他智能体以键响应,消息权重通过 softmax 计算。虽注意力得分计算为 $O(n^2)$ ,但可通过 top-$k$ 注意力大幅剪枝消息,且整体结构端到端可微。这已成为现代 MARL 的主流选择,也是通往多 LLM 智能体系统的自然桥梁——注意力式路由可直接映射到工具调用与智能体编排模式。
具体选择取决于任务:紧密协作的机器人团队可接受密集通信;而数千个微服务或车辆场景下,稀疏或注意力剪枝几乎是唯一可行方案。
MARL 工业级训练:AlphaStar、OpenAI Five 与联赛训练#

AlphaStar (《星际争霸 II》)与 OpenAI Five (《Dota 2》)的成功关键,在于将训练种群设计视为首要工程问题。朴素自对弈易陷入循环:A 学会击败 B,B 又学会克制 A 的新策略却遗忘旧招,周而复始。AlphaStar 联赛明确划分三类种群:
- 主智能体:最终部署对象,为优化核心目标;
- 主剥削者:专职寻找主智能体弱点,迫使其补全能力;
- 联赛剥削者:定期重置,维持策略多样性,防止联赛风格趋同。
一个保存历史冻结快照的对手池通过优先虚拟自对弈(PFSP)与当前学习者匹配——PFSP 倾向于选择学习者刚好能勉强战胜的对手。这些机制共同避免了朴素自对弈中的灾难性遗忘。
OpenAI Five 则另辟蹊径:每个英雄由独立 LSTM 策略控制(参数共享),团队协作交由手工设计的共享奖励与海量算力支撑——每日相当于 180 年人类自对弈经验。两者的共同启示是:在工业规模下,训练课程的重要性绝不亚于单智能体算法本身。
这些思想正走出游戏领域。RLHF(第 12 篇 )与工具调用智能体编排,越来越呈现出多种群训练的特征——一群策略、一群评估者,辅以优先匹配机制。
多智能体强化学习中的信用分配:一个实例分析#
在合作型 MARL 中,信用分配才是真正的硬骨头:如何判断团队奖励究竟由哪个智能体的动作引发?这个问题值得深入探讨。考虑一个 4 智能体网格任务:仅当所有智能体同时站在目标格时,团队才获得 +10 奖励。若用朴素独立 Q-learning 训练,策略会永远震荡——因为每个智能体在更新 $Q$ 值时,将其他三个视为环境的一部分,“我应移向目标”的梯度信号被队友随机移动的噪声彻底淹没。
按复杂度递增,有三类解决方案:
差分奖励#
$$ D_i = R(s, a) - R(s, (a_{-i}, c_i)), $$其中 $c_i$ 为默认动作(如“静止”)。每个智能体的有效奖励即“因我的实际选择而产生的团队收益增量”,通过基线边缘化得到。差分奖励早在深度 RL 兴起前 15 年就已提出(Wolpert & Tumer, 2002),只要能高效计算反事实(如支持回滚的模拟器),至今仍惊人有效。
反事实基线(COMA)#
$$ A_i(s, a) = Q(s, a) - \sum_{a_i'} \pi_i(a_i' | \tau_i)\, Q(s, (a_{-i}, a_i')), $$即在固定他人动作的前提下,对 $i$ 的备选动作求期望。其精妙之处在于,该期望使用集中式评论家计算——训练时所有观测可用,基线定义明确;而测试时各智能体仍仅依赖自身历史。
基于势函数的奖励塑形#
若上述方法均不可行,可退而采用势函数奖励塑形:添加额外项 $F(s, s') = \gamma \Phi(s') - \Phi(s)$ ,其中 $\Phi$ 为手工设计的势函数(如负目标距离)。Ng-Harada-Russell 定理保证最优策略不变。在 MARL 中,为每个智能体单独应用此技巧,常能达到复杂信用分配方法的效果,且实现极为简单——30 行代码足矣。
一个真实踩过的坑#
在多机器人仓库拣货任务中,我们最初用 QMIX 训练,奖励为稀疏的“所有包裹拣完”。100 M 环境步后策略仍次优,因 4 号机器人几乎闲置——其个体 $Q$ 值几无变化,因其动作极少单独决定团队成败。加入差分奖励(每机器人奖励 = 团队奖励 $-$ 其静止时的团队奖励)后,策略在 12 M 步内收敛。结果证明,那篇复杂的信用分配论文,效果竟不如一个 30 行的奖励塑形函数。
MARL 中的奖励塑形与课程设计#
稀疏团队奖励在 MARL 中极难收敛。与其更换算法,不如尝试以下两个工程技巧,往往事半功倍。
按团队规模逐步训练#
先用 2 个智能体训练,再增至 3 个,最后扩展至 4 个。$n=2$ 时联合动作空间小,随机探索偶尔能触达奖励,梯度信号更强。待策略初步成型后,新增智能体以最佳单体策略初始化,再全队联合训练。AlphaStar 采用了此思路的极端版本(基于联赛的群体训练),但你无需复杂机制,基础课程设计已足够有效。
冻结对手的自我博弈#
在竞争型 MARL 中,标准做法是虚拟自对弈(fictitious self-play):当前学习者与过去多个版本的自己混合对战。这可避免“今日策略胜昨日、败上周”的循环(石头剪刀布陷阱)。OpenAI Five 训练中,80% 对最新 checkpoint,20% 对随机历史快照——正是这 20% 维持了种群多样性,确保泛化能力。
超参数敏感性注意事项#
MARL 对超参数的敏感性远高于单智能体 RL。同一 QMIX 实现,在 StarCraft II 微操任务中某学习率可收敛,但在多粒子环境中,学习率仅放大 2 倍便发散。社区经验表明:初始学习率宜取单智能体 PPO 的一半左右,并延长熵奖励的衰减周期——因为在 MARL 中,探索是一种“公共品”:任一智能体停止探索,其余智能体都将损失信息。
常见问题#
为什么 QMIX 需要单调性约束?#
为了使分散式贪心执行与集中式联合优化保持一致。如果 $\partial Q_\text{tot}/\partial Q_i$ 可以为负,那么智能体在其自身 $Q_i$ 上的贪心行为可能会降低团队价值。单调性使得单智能体 argmax 与联合 argmax 保持一致。
MARL 系统何时会陷入次优均衡?#
当最优联合动作需要协调探索时——两个智能体必须同时尝试风险动作才能看起来有效。如果随机探索几乎从不产生该联合动作,系统就会收敛到一个更安全但帕累托劣势的均衡。修复方法包括联合探索(承诺探索计划)、显式通信和对手建模。
样本复杂度如何随智能体数量扩展?#
对于价值分解成立的合作任务,样本复杂度大致随 $n$ 线性增长——这正是 QMIX 的全部意义。如果没有分解,在联合动作空间上学习 $Q(s, \mathbf{a})$ 对 $n$ 是指数级的。
独立学习者 vs CTDE — CTDE 总是值得的吗?#
对于非常小的群体或全局状态确实不可用时,独立 Q 学习可以工作且实现起来简单得多。一旦信用分配变得重要或团队超过 3-4 个智能体,CTDE 方法就会领先,差距会迅速扩大。
这些方法能迁移到多 LLM 智能体系统吗?#
可以。集中式评论家对应外部评估器,分散式执行者对应子智能体,基于注意力的通信对应工具路由,联赛训练对应正在成为智能体 RLHF 标准的评估器群体模式。
参考文献#
- Sunehag et al., Value-Decomposition Networks for Cooperative Multi-Agent Learning, AAMAS 2018. arXiv:1706.05296
- Rashid et al., QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent RL, ICML 2018. arXiv:1803.11485
- Lowe et al., Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments (MADDPG), NeurIPS 2017. arXiv:1706.02275
- Foerster et al., Counterfactual Multi-Agent Policy Gradients (COMA), AAAI 2018. arXiv:1705.08926
- Vinyals et al., Grandmaster level in StarCraft II using multi-agent reinforcement learning, Nature 575, 2019.
- OpenAI et al., Dota 2 with Large Scale Deep Reinforcement Learning, 2019. arXiv:1912.06680
- Yu et al., The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games (MAPPO), NeurIPS 2022. arXiv:2103.01955
强化学习 12 篇
- 01 强化学习(一):基础与核心概念
- 02 强化学习(二):Q-Learning 与深度 Q 网络(DQN)
- 03 强化学习(三):Policy Gradient 与 Actor-Critic 方法
- 04 强化学习(四):探索策略与好奇心驱动学习
- 05 强化学习(五):Model-Based 强化学习与世界模型
- 06 强化学习(六):PPO 与 TRPO —— 信任域策略优化
- 07 强化学习(七):模仿学习与逆强化学习
- 08 强化学习(八):AlphaGo 与蒙特卡洛树搜索
- 09 强化学习(九):多智能体强化学习 当前
- 10 强化学习(十):离线强化学习
- 11 强化学习(十一):层次化强化学习与元学习
- 12 强化学习(十二):RLHF 与大语言模型应用