chenk
.
top
首页
系列
项目
归档
关于
EN
esc
搜索
标签
SAC
Aug 11, 2025
强化学习
20 分钟
强化学习(三):Policy Gradient 与 Actor-Critic 方法
从 REINFORCE 到 SAC——策略梯度方法如何直接优化策略,自然处理连续动作,驱动 PPO、TD3 和 SAC 等现代算法。