Tagged

逆强化学习

Aug 31, 2025 Reinforcement Learning 12 min read

从专家示范中学习：行为克隆为何在长任务上必败、DAgger 如何把误差从二次降到线性、最大熵 IRL 如何反推奖励、GAIL/AIRL 如何用对抗训练匹配专家占用度。配可运行 PyTorch 代码、方法选择阶梯，以及七张高质量配图。