优化理论（四）：学习率与调度策略

Sun, 18 Sep 2022 09:00:00 +0000

模型崩溃了，你把学习率减半——模型终于能训练了，但速度慢得惊人；再减半，损失几乎不再下降，曲线趋于平缓。这种场景是不是很熟？在所有可调的超参数里，学习率（learning rate, LR）是最容易决定训练成败的那一个——它直接决定了模型是顺利收敛、进展极其缓慢，还是迅速发散。

Warmup on Chen Kai Blog