Tagged

MADDPG

Sep 10, 2025 Reinforcement Learning 10 min read

强化学习(九):多智能体强化学习

系统讲透多智能体强化学习:马尔可夫博弈、非稳态与信用分配、CTDE 范式、值分解(VDN/QMIX)、反事实基线(COMA)、MADDPG,以及 AlphaStar 与 OpenAI Five 的联赛训练,附可运行的 QMIX 混合网络 PyTorch 实现。