Tagged

Decision Transformer

Sep 15, 2025 Reinforcement Learning 12 min read

强化学习(十):离线强化学习

离线强化学习从固定数据集学习策略,无需任何在线交互。本文系统讲解分布偏移、外推误差,以及 CQL、BCQ、IQL、Decision Transformer 四类主流方法,配有完整的 CQL PyTorch 实现与 D4RL 基准对比。