chenk
.
top
Home
Series
Projects
Archives
About
EN
esc
Search articles, series, and tags…
Tagged
策略梯度
Aug 11, 2025
Reinforcement Learning
11 min read
强化学习(三):Policy Gradient与Actor-Critic方法
从REINFORCE到SAC——策略梯度方法如何直接优化策略,自然处理连续动作,驱动PPO、TD3和SAC等现代算法。