标签

Decision Transformer

Sep 15, 2025 强化学习 22 分钟

离线强化学习从固定数据集学习策略，无需任何在线交互。本文系统讲解分布偏移、外推误差，以及 CQL、BCQ、IQL、Decision Transformer 四类主流方法，配有完整的 CQL PyTorch 实现与 D4RL 基准对比。