大模型工程（六）：长上下文与 RoPE、YaRN

Wed, 01 Apr 2026 09:00:00 +0000

“1M token 上下文”堪称大模型领域最被夸大的指标之一。模型能处理 1M tokens，这反映的是架构能力；但能否真正利用第 80 万位的信息来回答问题，则考验的是行为能力——后者要难得多。本章将深入探讨位置编码的数学原理、将上下文扩展至训练长度之外的工程技巧，并解释为何大多数长上下文模型在“大海捞针”测试中表现不佳。

Yarn on Chen Kai Blog

大模型工程（六）：长上下文与 RoPE、YaRN