Tagged

策略梯度

Aug 11, 2025 Reinforcement Learning 11 min read

强化学习（三）：Policy Gradient与Actor-Critic方法

从REINFORCE到SAC——策略梯度方法如何直接优化策略，自然处理连续动作，驱动PPO、TD3和SAC等现代算法。