<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>QMIX on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/qmix/</link><description>Recent content in QMIX on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Wed, 10 Sep 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/qmix/index.xml" rel="self" type="application/rss+xml"/><item><title>强化学习（九）：多智能体强化学习</title><link>https://www.chenk.top/zh/reinforcement-learning/09-%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><pubDate>Wed, 10 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/09-%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>单智能体强化学习（RL）有一个隐含但极其重要的假设：环境是静态的，转移核不会因智能体的学习而改变。然而，一旦出现第二个学习者，这个假设就彻底失效了。每个智能体面对的环境动力学会随着其他智能体策略的更新而持续变化，奖励信号在智能体之间高度耦合，联合动作空间更是呈组合爆炸式增长。这些问题并非工程上的小麻烦，而是多智能体强化学习（MARL）必须发展专属算法的根本原因——简单地“并行跑 n 个 DQN”是行不通的。&lt;/p></description></item></channel></rss>