强化学习（四）：探索策略与好奇心驱动学习

Sat, 16 Aug 2025 09:00:00 +0000

将一个全新的智能体放入《蒙特祖玛的复仇》中。要拿到第一分，它必须精确地完成一系列动作：向右走、跳过骷髅、爬上绳子、跳到平台并最终抓起钥匙——这一百个动作中任何一个出错都会导致失败。在拿到钥匙之前，环境给出的奖励始终为 0。

RND on Chen Kai Blog