标签

MADDPG

Sep 10, 2025 强化学习 24 分钟

系统讲透多智能体强化学习：马尔可夫博弈、非稳态与信用分配、CTDE 范式、值分解（VDN/QMIX）、反事实基线（COMA）、MADDPG，以及 AlphaStar 与 OpenAI Five 的联赛训练，附可运行的 QMIX 混合网络 PyTorch 实现。