标签

大模型训练

Sep 18, 2022 优化理论 42 分钟

优化理论(四):学习率与调度策略

从一维抛物线讲到 LLM 预训练配方,覆盖 cosine/WSD/Schedule-Free、LR range test、warmup 新理论与诊断 checklist。