强化学习（十）：离线强化学习

Mon, 15 Sep 2025 09:00:00 +0000

到目前为止，我们学过的所有算法都遵循同一个核心循环：行动、观察、更新。这个循环让强化学习得以运转，却也恰恰阻碍了它在现实世界中的部署。自动驾驶系统不可能靠撞车来练习通过路口；临床决策支持模型不能在真实患者身上随意尝试随机策略；工厂里的机械臂也无法在产线上反复测试上万种抓取方式。

CQL on Chen Kai Blog