<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>CQL on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/cql/</link><description>Recent content in CQL on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Mon, 15 Sep 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/cql/index.xml" rel="self" type="application/rss+xml"/><item><title>强化学习（十）：离线强化学习</title><link>https://www.chenk.top/zh/reinforcement-learning/10-%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><pubDate>Mon, 15 Sep 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/10-%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>到目前为止，我们学过的所有算法都遵循同一个核心循环：行动、观察、更新。这个循环让强化学习得以运转，却也恰恰阻碍了它在现实世界中的部署。自动驾驶系统不可能靠撞车来练习通过路口；临床决策支持模型不能在真实患者身上随意尝试随机策略；工厂里的机械臂也无法在产线上反复测试上万种抓取方式。&lt;/p></description></item></channel></rss>