优化理论（十一）：非凸优化与鞍点逃逸

Thu, 29 Sep 2022 09:00:00 +0000

对于非凸函数 $$f$$ ，梯度下降法（GD）没有全局收敛保证。我们最多只能说 $\nabla f(x_t) \to 0$ ——即算法会收敛到一个平稳点（stationary point），而该点可能是局部极小值、鞍点，甚至是局部极大值。本文要探讨的问题是：在什么条件下，我们能得出更强的结论？

Deep Learning Theory on Chen Kai Blog

优化理论（十一）：非凸优化与鞍点逃逸