<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Model-Based RL on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/model-based-rl/</link><description>Recent content in Model-Based RL on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 21 Aug 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/model-based-rl/index.xml" rel="self" type="application/rss+xml"/><item><title>强化学习（五）：Model-Based 强化学习与世界模型</title><link>https://www.chenk.top/zh/reinforcement-learning/05-model-based%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E4%B8%8E%E4%B8%96%E7%95%8C%E6%A8%A1%E5%9E%8B/</link><pubDate>Thu, 21 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/05-model-based%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E4%B8%8E%E4%B8%96%E7%95%8C%E6%A8%A1%E5%9E%8B/</guid><description>&lt;p>到目前为止，我们介绍的所有算法——DQN、REINFORCE、A2C、PPO、SAC——都属于 &lt;strong>Model-Free&lt;/strong>（无模型）类型。智能体将环境视为黑盒，不断尝试动作并根据返回的奖励更新策略，完全不关心环境内部如何运作。这种方法确实有效，但代价高昂：DQN 需要大约 &lt;strong>1000 万帧&lt;/strong>才能掌握 Atari Pong；OpenAI Five 在 Dota 2 上的训练量相当于 &lt;strong>约 4.5 万年&lt;/strong>的自我对弈；AlphaStar 则消耗了数年的 StarCraft 对局数据来训练单个智能体。&lt;/p></description></item></channel></rss>