标签

Stochastic Methods

Sep 27, 2022 优化理论 18 分钟

优化理论(十):随机优化与方差缩减

SGD 为何有效?我们基于梯度噪声预算证明了其在凸函数下的 $O(1/\sqrt{T})$ 收敛率与强凸函数下的 $O(1/(\mu T))$ 收敛率;进而介绍方差缩减方法——SVRG、SAGA、Katyusha,它们利用随机样本达到全梯度下降的线性收敛速率,并完整解析其理论机理。