大模型工程（三）：预训练的规模之道

Sun, 29 Mar 2026 09:00:00 +0000

预训练是大模型能力的源头，也是榜单成绩与实际表现差距最大的地方。大多数公开的训练记录更像是工程奇迹，而非科学成果。本章将聚焦于当你不是 OpenAI 时，预训练中真正必须做对的关键环节：数据、并行策略，以及那些只有在集群规模足够大时才会暴露的故障模式——比如一次失败的 NCCL all-reduce 就可能让为期 30 天的训练任务功亏一篑。

Pretraining on Chen Kai Blog

大模型工程（三）：预训练的规模之道