标签

Data-Mixing

Mar 29, 2026 大模型工程 36 分钟

大模型工程(三):预训练的规模之道

数据混合、去重、benchmark 污染、μP,FSDP / ZeRO-3 / Pipeline 并行,实战意义上的 200B token 悬崖,以及 1000 卡以上才会出现的失败模式。