标签

RND

Aug 16, 2025 强化学习 26 分钟

强化学习（四）：探索策略与好奇心驱动学习

在几乎没有奖励反馈的环境中，智能体如何发现回报？从计数型方法到 ICM、RND、NGU——好奇心驱动探索的完整脉络与工程实践。