标签
RoPE
大模型工程(六):长上下文与 RoPE、YaRN
RoPE 怎么编码位置、为什么朴素扩展会崩、NTK-aware 和 YaRN 缩放、ALiBi vs RoPE、流式生成的 attention sinks,以及 1M 上下文承诺为什么常在检索测试上崩盘。
自然语言处理(九):大语言模型架构深度解析
拆解现代 LLM 的内部结构:Pre-norm + RMSNorm + SwiGLU + RoPE + GQA、KV Cache 机制、FlashAttention 的 IO 调度、稀疏 MoE,以及 INT8/INT4 量化。

