标签

Deep Learning Theory

Sep 29, 2022 优化理论 20 分钟

优化理论(十一):非凸优化与鞍点逃逸

为何 SGD 能在非凸景观下有效训练神经网络?我们证明扰动梯度下降可在多项式时间内逃离严格鞍点,在 Polyak-Łojasiewicz 条件下推导其收敛性,并综述深度学习损失曲面的已知理论结果——过参数化、神经正切核(NTK)及对平坦极小值的隐式偏好。