Tagged

PlaNet

Aug 21, 2025 Reinforcement Learning 14 min read

强化学习(五):Model-Based强化学习与世界模型

从 Dyna、MBPO 到 World Models、Dreamer 和 MuZero——学一个环境模型,让智能体在想象中规划,把样本效率提高 10-100 倍。