强化学习（九）：多智能体强化学习

单智能体 RL 有一个安静却影响深远的前提：环境是稳态的，转移核不会因为智能体在学习而改变。但只要有第二个学习者出现，这个前提立刻崩塌——每个智能体看到的环境动力学，会随同伴的更新而漂移；奖励在智能体之间彼此纠缠；联合动作空间随人数指数膨胀。这些都不是工程小麻烦，而是为什么多智能体 RL（MARL）需要自己的一整套算法、而不是简单地"并行跑 n 个 DQN"。

把这些问题啃下来的回报很大：AlphaStar 在《星际争霸 II》天梯上达到宗师段位，OpenAI Five 在《Dota 2》击败世界冠军，仓储机器人调度、信号灯控制、多 LLM 协作系统也都是合作型 MARL 的天然舞台。本章把概念骨架——马尔可夫博弈、CTDE、值分解、反事实信用——讲透，最后落到一段可以直接拿去训练的 QMIX 混合网络代码。

你将学到什么

MARL 区别于单智能体的四大难题：非稳态性、信用分配、部分可观测、可扩展性
必要的博弈论词汇：马尔可夫博弈、纳什均衡、Pareto 最优、社会困境
CTDE（集中训练、分散执行）为什么是当今的统治范式
值分解：VDN、QMIX，以及让贪心执行可证正确的单调性约束
多智能体 Actor-Critic：MADDPG（每个智能体一个集中评论家）与 COMA（反事实基线）
通信：广播、稀疏、注意力路由各自的适用场景
AlphaStar 联赛训练与 OpenAI Five 的工业级训练流水线

前置知识

Q-Learning 与 DQN（第 2 篇）
Actor-Critic 与策略梯度（第 3 篇、第 6 篇）
期望与条件概率的基本直觉；正式的博弈论我们只用到最低限度

1. 为什么 MARL 比单智能体 RL 真的更难

奖励结构几乎决定了其他一切。合作型博弈中所有智能体共享团队奖励——足球配合、群体物流、星际微操；竞争型是零和博弈，一方所得即另一方所失，主流武器是某种形式的自我对弈；最有趣的是中间的混合动机（一般和）博弈——市场、交通、谈判、拥塞控制——短期个人利益往往会摧毁长期集体福利（囚徒困境就是教科书式的 2×2 例子，也对应图中第三个收益矩阵）。

无论身处哪种范式，下面四个障碍都会让单智能体那套工具失效。

非稳态性。从智能体 $i$ 的视角看，转移是 $P(s' \mid s, a_i, a_{-i})$，这里 $a_{-i}$ 表示其他人的动作。当其他人的策略 $\pi_{-i}$ 在训练中持续更新，$i$ 看到的有效转移核就一直在漂。DQN 这类离策略方法假设数据生成分布固定，在 MARL 里很容易发散或震荡。

信用分配。一局合作下来团队只拿到一个 $r$，到底是谁的功劳？朴素的共享梯度会鼓励搭便车——什么也不干的智能体获得和挑大梁的同样的信用。COMA 的反事实基线（第 5 节）和值分解（第 4 节）是两种有原则的解法。

部分可观测。每个智能体只看见自己的观测 $o_i$，执行时根本拿不到马尔可夫状态。常见的临时方案是循环网络加上"信念状态"风格的表征，但更深层的解法是从架构上让集中评论家在训练时看到比执行时更多的信息。

可扩展性。$n$ 个智能体、每人 $|A|$ 个动作，联合动作空间就是 $|A|^n$。不利用结构，连规模适中的合作任务都会爆炸。

四个问题统一的解法——也是本章的概念主轴——是 CTDE。

2. CTDE：训练时全信息，执行时几乎零信息

它的精髓是不对称：训练阶段允许算法看到完整状态以及每个智能体的动作——一个集中的评论家、混合器或值函数；部署阶段只保留以局部观测为条件的各自策略。执行接口分散，优化接口集中。

CTDE 行得通，是因为让 MARL 难的那些东西（非稳态、信用分配、部分可观测）属于学习阶段的性质，而让 MARL 实用的那些约束（带宽有限、异步控制、隐私）属于执行阶段的性质。CTDE 把两类问题各自归位。今天几乎所有主流的合作型 MARL 算法——VDN、QMIX、MADDPG、COMA、MAPPO——都是 CTDE 方法，它们的差别仅仅在于集中对象是什么以及怎么把它分解回去。

3. 马尔可夫博弈与纳什均衡：够用就好

马尔可夫博弈把 MDP 推广到 $n$ 个智能体：

$$ \langle \mathcal{N}, \mathcal{S}, \{A_i\}_{i\in\mathcal{N}}, P, \{r_i\}_{i\in\mathcal{N}}, \gamma \rangle. $$

每个智能体 $i$ 拥有自己的动作集 $A_i$ 和奖励 $r_i(s, a_1, \ldots, a_n)$。纳什均衡指一个联合策略 $\pi^* = (\pi_1^*, \ldots, \pi_n^*)$，没有任何一个智能体能单方面改善：

$$ V_i(\pi_i^*, \pi_{-i}^*) \;\geq\; V_i(\pi_i, \pi_{-i}^*) \qquad \forall \pi_i,\, \forall i. $$

有两件事让纳什均衡这个目标颇为滑溜：第一，它通常不唯一；第二，它未必 Pareto 最优。但在完全合作情形下（$r_1 = \cdots = r_n$），画面骤然简化——问题退化为最大化单一团队回报，纳什均衡和 Pareto 最优重合。这正是为什么本章大多数算法机器先针对合作场景设计；竞争与混合动机的方案在此基础上叠加自我对弈、对手建模、正则化等额外想法。

4. 值分解：VDN 与 QMIX

值分解是合作场景下的一种 CTDE 配方：执行用每个智能体自己的值函数 $Q_i(o_i, a_i)$，训练用一个合并的 $Q_\text{tot}(s, \mathbf{a})$，并对二者关系施加约束，使得在 $Q_i$ 上的分散贪心选择等价于在 $Q_\text{tot}$ 上的联合贪心选择。这就是 Individual-Global-Max（IGM） 性质：

$$ \arg\max_{\mathbf{a}} Q_\text{tot}(s, \mathbf{a}) \;=\; \big(\arg\max_{a_1} Q_1(o_1, a_1),\; \ldots,\; \arg\max_{a_n} Q_n(o_n, a_n)\big). $$

VDN：加性分解

Sunehag 等, 2017 取了最简单的充分条件：

$$ Q_\text{tot}(s, \mathbf{a}) \;=\; \sum_{i=1}^{n} Q_i(o_i, a_i). $$

求和对每个被加项天然单调，所以 IGM 平凡成立。代价是表达能力——VDN 完全无法表示智能体之间的非加性交互。

QMIX：单调混合

QMIX 保留 IGM，但把"加性"放宽到"单调"。一个神经混合网络把 $Q_i$ 合成 $Q_\text{tot}$，并满足

$$ \frac{\partial Q_\text{tot}}{\partial Q_i} \;\geq\; 0 \qquad \forall i. $$

实现上，约束是通过构造混合器的权重为非负来强制的——直接对权重取绝对值或过 softplus 即可。关键在于这些权重本身由一个以全局状态 $s$ 为输入的超网络（hypernetwork）产生，因此在不同状态下，不同智能体可以被赋予不同的权重，混合器也能表达出纯求和无法表示的智能体间交互。图右侧画出了由此得到的 $Q_\text{tot}$ 曲面：对每个 $Q_i$ 单调，所以联合 argmax 与各自 argmax 的组合一致。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import torch
import torch.nn as nn


class QMixer(nn.Module):
    """QMIX 混合网络，权重由超网络生成并保持非负。"""

    def __init__(self, n_agents: int, state_dim: int, hidden_dim: int = 32):
        super().__init__()
        self.n_agents = n_agents
        self.hidden_dim = hidden_dim

        # 超网络：state -> 混合权重（取 abs 强制非负）
        self.hyper_w1 = nn.Linear(state_dim, n_agents * hidden_dim)
        self.hyper_b1 = nn.Linear(state_dim, hidden_dim)
        self.hyper_w2 = nn.Linear(state_dim, hidden_dim)
        # 末层标量偏置无符号约束
        self.hyper_b2 = nn.Sequential(
            nn.Linear(state_dim, hidden_dim), nn.ReLU(),
            nn.Linear(hidden_dim, 1),
        )

    def forward(self, agent_qs: torch.Tensor, state: torch.Tensor) -> torch.Tensor:
        """agent_qs: (B, n_agents)   state: (B, state_dim)   ->  (B, 1)"""
        B = agent_qs.size(0)
        agent_qs = agent_qs.view(B, 1, self.n_agents)

        w1 = torch.abs(self.hyper_w1(state)).view(B, self.n_agents, self.hidden_dim)
        b1 = self.hyper_b1(state).view(B, 1, self.hidden_dim)
        hidden = torch.nn.functional.elu(torch.bmm(agent_qs, w1) + b1)

        w2 = torch.abs(self.hyper_w2(state)).view(B, self.hidden_dim, 1)
        b2 = self.hyper_b2(state).view(B, 1, 1)
        q_tot = torch.bmm(hidden, w2) + b2
        return q_tot.view(B, 1)

训练方式与 DQN 完全一致：从回放池采样转移，在 $Q_\text{tot}$ 上构造 TD 目标，再把梯度反传到混合器以及每个智能体网络。执行时每个智能体只跑自己的 $Q_i$，根本不会触碰混合器。

一个工程细节：QMIX 不能表示所有满足 IGM 的可分解函数（单调性是充分但非必要的）。QTRAN 与 QPLEX 把这一边界继续往前推，但代价是更复杂的损失与工程实现。

5. 多智能体 Actor-Critic：MADDPG 与 COMA

MADDPG：每个智能体一个集中评论家

MADDPG 是 DDPG 在 CTDE 下的自然扩展。每个智能体 $i$ 拥有：

执行者 $\mu_i(o_i)$，仅依赖局部观测；
评论家 $Q_i(s, a_1, \ldots, a_n)$，输入完整状态以及所有智能体的动作。

执行者用确定性策略梯度通过自己的评论家更新；评论家则用全员目标执行者构造 TD 目标：

$$ y \;=\; r_i \;+\; \gamma \, Q_i^{\text{tgt}}\!\left(s', \mu_1^{\text{tgt}}(o_1'), \ldots, \mu_n^{\text{tgt}}(o_n')\right). $$

由于评论家把 $a_{-i}$ 也作为输入，在评论家眼里环境就重新变得稳态——会变的那些东西已经被显式喂进来了。执行者保持分散，部署时不受影响。MADDPG 在合作、竞争、混合动机三类场景中都能用，回放池只需存储联合轨迹。

COMA：反事实信用分配

COMA 直击信用分配难题。它使用单一的集中评论家 $Q(s, \mathbf{a})$，并为每个智能体 $i$ 构造一个反事实基线——固定其他人的动作不动，仅对 $i$ 自己的动作按其策略求平均：

$$ A_i(s, \mathbf{a}) \;=\; Q(s, \mathbf{a}) \;-\; \sum_{a_i'} \pi_i(a_i' \mid o_i) \, Q\!\left(s, (a_i', a_{-i})\right). $$

仔细读这条公式：第一项是真实发生的价值；第二项是在其他人完全照旧的前提下，$i$ 如果换一个动作的期望价值。两者之差正好是 $i$ 的边际贡献。在共享团队奖励下，这正是策略梯度应该追逐的对象——它去掉了 $a_{-i}$ 带来的噪声，又不引入偏差。图中给出了四动作示例：只有真正被选择的动作得到非平凡的优势值。

让 COMA 实际可算的小技巧是：集中评论家一次性输出 $i$ 所有候选动作的 $Q$ 值，于是基线只是策略概率与 $Q$ 向量的一次内积，无需任何额外的环境交互。

6. 通信：智能体彼此该说多少？

有时候完全分散的执行确实太苛刻——智能体在测试时也确实需要交换信息。这条设计谱有几个关键档位。

广播——每个智能体向其他每个智能体发送固定大小的消息。概念清爽，但消息量按 $O(n^2)$ 增长，超过几十个智能体就难以为继。

稀疏 / k-NN——每个智能体只与最近的 $k$ 个邻居（在空间、图、角色上）通信。固定 $k$ 时复杂度线性。CommNet、IC3Net、TarMAC 都属于这一档。

注意力——软的、可学习的路由：每个智能体发出 query，邻居返回 keys，消息权重由 softmax 决定。注意力得分本身仍是 $O(n^2)$，但消息可以被狠狠剪枝（top-$k$ 注意力），整个结构端到端可微。它是当下 MARL 的主流，也天然桥接到多 LLM 智能体系统——注意力路由几乎可以原样搬过去做工具调用与 agent 编排。

具体怎么选取决于任务：紧密耦合的机器人小队，密集通信完全可以；几千个微服务或车辆，稀疏或注意力剪枝几乎是唯一可行的设计。

7. MARL 工业级训练：AlphaStar、OpenAI Five 与联赛训练

AlphaStar （星际争霸 II）和 OpenAI Five （Dota 2）能成功，关键在于把训练种群设计当成一等公民来工程化。朴素自我对弈往往陷入循环——A 学会克制 B，B 又学会克制 A 的新策略并忘记了为什么自己曾能赢 A 的旧策略，如此往复。AlphaStar 联赛显式拆出三类种群：

主智能体——真正要部署的对象，是优化目标；
主剥削者——专门去找主智能体的弱点，逼它把短板补上；
联赛剥削者——周期性重置，维护策略多样性，防止整个联赛塌缩到单一风格。

一个保存历史冻结快照的对手池通过优先虚拟自我对弈（PFSP）匹配给当前学习者——它倾向于配对那些当前学习者刚好能勉强赢下的对手。这些机制合在一起，正是为了避免朴素自我对弈下的灾难性遗忘。

OpenAI Five 的切法不同。每个英雄由独立的 LSTM 控制，参数共享；团队级协调被交给手工奖励塑形和巨大算力——大约是每天 180 年的人类等效自我对弈。两套系统给出的同一个教训是：到了工业规模，训练课程的重要性丝毫不亚于单智能体算法。

这些思想正在向游戏之外迁移。RLHF（第 12 篇）和工具调用 agent 编排，越来越像多种群训练——一群策略、一群评估者，加上两者之间的优先匹配。

常见问题

为什么 QMIX 必须有单调性约束？

为了保证分散贪心执行与集中联合优化是一致的。如果 $\partial Q_\text{tot}/\partial Q_i$ 可以为负，那么一个智能体在自己 $Q_i$ 上贪心反而可能降低团队价值。单调性让"各自 argmax"与"联合 argmax"重合。

MARL 系统什么时候会陷在次优均衡里？

当最优联合动作需要协调式探索时——必须双方同时尝试那个有风险的组合才能看到它的好处。如果随机探索几乎不可能撞到这个联合动作，系统就会收敛到一个更安全但被 Pareto 支配的均衡。补救手段是联合探索（committed-exploration）、显式通信、对手建模。

样本复杂度如何随智能体数量扩展？

对值分解适用的合作任务，样本复杂度大致随 $n$ 线性增长——这正是 QMIX 的全部意义。没有分解，直接学 $Q(s, \mathbf{a})$ 在联合动作空间上是指数级。

独立学习者 vs CTDE，CTDE 永远值得吗？

种群很小或者全局状态确实不可得时，独立 Q-learning 也能跑，实现也简单很多。一旦信用分配开始重要，或者团队超过 3–4 个智能体，CTDE 方法的优势就拉开，且差距随着规模迅速扩大。

这些思想能迁移到多 LLM agent 系统吗？

能。集中评论家对应外层评估器，分散执行者对应子 agent，注意力通信对应工具路由，联赛训练对应"评估者种群"——后者已是 agentic RLHF 中越来越主流的模式。

参考文献

Sunehag et al., Value-Decomposition Networks for Cooperative Multi-Agent Learning, AAMAS 2018. arXiv:1706.05296
Rashid et al., QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent RL, ICML 2018. arXiv:1803.11485
Lowe et al., Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments（MADDPG），NeurIPS 2017. arXiv:1706.02275
Foerster et al., Counterfactual Multi-Agent Policy Gradients（COMA），AAAI 2018. arXiv:1705.08926
Vinyals et al., Grandmaster level in StarCraft II using multi-agent reinforcement learning, Nature 575, 2019.
OpenAI et al., Dota 2 with Large Scale Deep Reinforcement Learning, 2019. arXiv:1912.06680
Yu et al., The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games（MAPPO），NeurIPS 2022. arXiv:2103.01955