<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>RND on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/rnd/</link><description>Recent content in RND on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Sat, 16 Aug 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/rnd/index.xml" rel="self" type="application/rss+xml"/><item><title>强化学习（四）：探索策略与好奇心驱动学习</title><link>https://www.chenk.top/zh/reinforcement-learning/04-%E6%8E%A2%E7%B4%A2%E7%AD%96%E7%95%A5%E4%B8%8E%E5%A5%BD%E5%A5%87%E5%BF%83%E9%A9%B1%E5%8A%A8%E5%AD%A6%E4%B9%A0/</link><pubDate>Sat, 16 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/04-%E6%8E%A2%E7%B4%A2%E7%AD%96%E7%95%A5%E4%B8%8E%E5%A5%BD%E5%A5%87%E5%BF%83%E9%A9%B1%E5%8A%A8%E5%AD%A6%E4%B9%A0/</guid><description>&lt;p>将一个全新的智能体放入《蒙特祖玛的复仇》中。要拿到第一分，它必须精确地完成一系列动作：向右走、跳过骷髅、爬上绳子、跳到平台并最终抓起钥匙——这一百个动作中任何一个出错都会导致失败。在拿到钥匙之前，环境给出的奖励始终为 0。&lt;/p></description></item></channel></rss>