<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>PPO on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/ppo/</link><description>Recent content in PPO on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Tue, 26 Aug 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/ppo/index.xml" rel="self" type="application/rss+xml"/><item><title>强化学习（六）：PPO 与 TRPO —— 信任域策略优化</title><link>https://www.chenk.top/zh/reinforcement-learning/06-ppo%E4%B8%8Etrpo-%E4%BF%A1%E4%BB%BB%E5%9F%9F%E7%AD%96%E7%95%A5%E4%BC%98%E5%8C%96/</link><pubDate>Tue, 26 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/06-ppo%E4%B8%8Etrpo-%E4%BF%A1%E4%BB%BB%E5%9F%9F%E7%AD%96%E7%95%A5%E4%BC%98%E5%8C%96/</guid><description>&lt;p>策略梯度（第三部分）直接优化策略，绕开了离散的 &lt;code>argmax&lt;/code> 操作，还能自然处理随机策略。但它存在一个致命缺陷：&lt;strong>一次过大的更新就可能彻底摧毁策略&lt;/strong>。更糟的是，由于数据分布与策略紧密耦合，一旦崩溃，几乎无法恢复。&lt;/p></description></item><item><title>强化学习（三）：Policy Gradient 与 Actor-Critic 方法</title><link>https://www.chenk.top/zh/reinforcement-learning/03-policy-gradient%E4%B8%8Eactor-critic%E6%96%B9%E6%B3%95/</link><pubDate>Mon, 11 Aug 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/reinforcement-learning/03-policy-gradient%E4%B8%8Eactor-critic%E6%96%B9%E6%B3%95/</guid><description>&lt;p>DQN 证明了深度强化学习能够成功解决 Atari 游戏，但其能力存在明显局限：仅适用于&lt;strong>离散动作空间&lt;/strong>。若用于控制具有七个连续关节角度的机械臂，则会完全失效——因为每一步动作选择都需要额外求解一个内部优化问题。&lt;/p></description></item></channel></rss>