chenk
.
top
首页
系列
项目
归档
关于
EN
esc
搜索
标签
Scaling-Laws
Mar 29, 2026
大模型工程
36 分钟
大模型工程(三):预训练的规模之道
数据混合、去重、benchmark 污染、μP,FSDP / ZeRO-3 / Pipeline 并行,实战意义上的 200B token 悬崖,以及 1000 卡以上才会出现的失败模式。