标签

Mamba

Mar 27, 2026 大模型工程 50 分钟

大模型工程(一):Transformer 到 MoE

MHA、GQA、MQA 的取舍,Mixtral 与 Qwen3-MoE 的稀疏路由,滑动窗口注意力,以及 Mamba、RWKV 这条非注意力路径——每条路的代价和适用场景。