Tagged

Actor-Critic

Aug 11, 2025 Reinforcement Learning 11 min read

强化学习(三):Policy Gradient与Actor-Critic方法

从REINFORCE到SAC——策略梯度方法如何直接优化策略,自然处理连续动作,驱动PPO、TD3和SAC等现代算法。