<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GAIL on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/gail/</link><description>Recent content in GAIL on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Sun, 31 Aug 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/gail/index.xml" rel="self" type="application/rss+xml"/><item><title>强化学习（七）：模仿学习与逆强化学习</title><link>https://www.chenk.top/zh/reinforcement-learning/07-%E6%A8%A1%E4%BB%BF%E5%AD%A6%E4%B9%A0%E4%B8%8E%E9%80%86%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><pubDate>Sun, 31 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/07-%E6%A8%A1%E4%BB%BF%E5%AD%A6%E4%B9%A0%E4%B8%8E%E9%80%86%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>之前的所有算法都默认能够获取奖励函数，但在实际项目中，设计奖励函数往往是最大的难点。试着用一段话描述“像谨慎的人类一样开车”、“像裁缝那样叠衬衫”，或者“像专业编辑那样总结文档”——你会发现，&lt;strong>演示&lt;/strong>这些行为远比&lt;strong>明确指定&lt;/strong>它们容易得多。&lt;/p></description></item></channel></rss>