标签

MoE

Mar 27, 2026 大模型工程 50 分钟

大模型工程(一):Transformer 到 MoE

MHA、GQA、MQA 的取舍,Mixtral 与 Qwen3-MoE 的稀疏路由,滑动窗口注意力,以及 Mamba、RWKV 这条非注意力路径——每条路的代价和适用场景。

Nov 10, 2025 NLP 技术前沿 30 分钟

自然语言处理(九):大语言模型架构深度解析

拆解现代 LLM 的内部结构:Pre-norm + RMSNorm + SwiGLU + RoPE + GQA、KV Cache 机制、FlashAttention 的 IO 调度、稀疏 MoE,以及 INT8/INT4 量化。