Tagged

大模型训练

Oct 19, 2025 Standalone 17 min read

学习率:从入门到大模型训练的终极指南

模型炸了,你把学习率减半。能跑了,但训练慢得令人发指。再减半,损失曲线变成一条直线。这种场景是不是很熟?在所有可调的超参数里,学习率(learning rate, LR)是最容易决定训练成败的那一个——它决定模型是收敛、龟速爬行,还是直接发散。