强化学习（五）：Model-Based 强化学习与世界模型

Thu, 21 Aug 2025 09:00:00 +0000

到目前为止，我们介绍的所有算法——DQN、REINFORCE、A2C、PPO、SAC——都属于 Model-Free（无模型）类型。智能体将环境视为黑盒，不断尝试动作并根据返回的奖励更新策略，完全不关心环境内部如何运作。这种方法确实有效，但代价高昂：DQN 需要大约 1000 万帧才能掌握 Atari Pong；OpenAI Five 在 Dota 2 上的训练量相当于 约 4.5 万年的自我对弈；AlphaStar 则消耗了数年的 StarCraft 对局数据来训练单个智能体。

Model-Based RL on Chen Kai Blog

强化学习（五）：Model-Based 强化学习与世界模型