标签

Attention-Sinks

Apr 1, 2026 大模型工程 28 分钟

大模型工程(六):长上下文与 RoPE、YaRN

RoPE 怎么编码位置、为什么朴素扩展会崩、NTK-aware 和 YaRN 缩放、ALiBi vs RoPE、流式生成的 attention sinks,以及 1M 上下文承诺为什么常在检索测试上崩盘。