强化学习（七）：模仿学习与逆强化学习

Sun, 31 Aug 2025 09:00:00 +0000

之前的所有算法都默认能够获取奖励函数，但在实际项目中，设计奖励函数往往是最大的难点。试着用一段话描述“像谨慎的人类一样开车”、“像裁缝那样叠衬衫”，或者“像专业编辑那样总结文档”——你会发现，演示这些行为远比明确指定它们容易得多。

GAIL on Chen Kai Blog