Transformer on Chen Kai Blog

大模型工程（一）：Transformer 到 MoE

Fri, 27 Mar 2026 09:00:00 +0000

2017 年提出的 Transformer 模块，到 2026 年依然是所有生产级大语言模型（LLM）的骨架，但其内部组件几乎已被全面替换、稀疏化或专业化。本系列将端到端覆盖现代 LLM 技术栈——架构、训练、推理、检索增强、评估、安全与部署。第一章聚焦模块本身：2026 年注意力机制的实际形态、MoE 如何打破参数量与计算量（FLOPs）的绑定关系，以及 Mamba、RWKV 等非注意力架构在哪些场景下真正优于 Transformer。

自然语言处理（九）：大语言模型架构深度解析

Mon, 10 Nov 2025 09:00:00 +0000

2017 年的 Transformer 论文提出了一种模块，如今所有生产环境中的大语言模型（LLM）依然沿用其整体框架，但内部几乎所有组件都经历了彻底替换：后置归一化（post-norm）被前置归一化（pre-norm）取代，LayerNorm 被 RMSNorm 替换，GELU 激活函数变成了 SwiGLU，正弦位置编码也被旋转位置编码（RoPE）所替代。多头注意力机制（Multi-head Attention）演进为分组查询注意力（Grouped-Query Attention, GQA），稠密前馈网络（FFN）在某些模型中甚至被稀疏专家混合模型（Mixture of Experts, MoE）所取代；更重要的是，推理过程中最核心的数据结构——KV 缓存（KV Cache）——在原始论文中完全没有提及。

自然语言处理（四）：注意力机制与 Transformer

Thu, 16 Oct 2025 09:00:00 +0000

2017 年 6 月，Google Brain 和 Google Research 的八位研究者发表了一篇标题相当引人注目的论文：Attention Is All You Need。这篇论文提出的 Transformer 架构彻底抛弃了循环结构，不再使用 LSTM 或 GRU，也不再需要从左到右逐步扫描句子；相反，序列中的每个 token 都可以通过缩放点积注意力直接“看到”其他所有 token。

线性代数（十六）：深度学习中的线性代数——从全连接到 Transformer

Wed, 16 Apr 2025 09:00:00 +0000

去掉那些营销包装，深度网络的本质其实很简单：一连串矩阵乘法，中间用逐元素非线性函数连接起来。前向传播、反向传播、卷积、注意力机制、归一化、微调——所有这些所谓的“技巧”不过是同一个代数主题的小小变化。一旦看清背后的矩阵，这个领域就不再是零散的配方，而是统一的语言。

时间序列模型（八）：Informer——高效长序列预测

Sun, 15 Dec 2024 09:00:00 +0000

Transformer 在序列建模上确实很强大，但只要序列一变长，问题就来了。普通自注意力机制在计算和显存上的开销都是 $\mathcal{O}(L^2)$ 级别——一周的小时级窗口（168 步）还能轻松处理，一个月窗口（720 步）就已经吃力，而三个月窗口（2160 步）在单张 GPU 上基本无法运行。偏偏现实世界中的长 horizon 预测任务，比如气象、能源、金融和 IoT，恰恰就落在这个区间。

时间序列模型（五）：时间序列的 Transformer 架构

Thu, 31 Oct 2024 09:00:00 +0000

2017 年那篇 Attention Is All You Need 把上一章的注意力机制推到了极致：根本不要 RNN 了。Transformer 完全用注意力堆叠出一个序列模型，没有一处递归、没有一个隐藏状态在时间上传播。最初它是为机器翻译设计的，但很快被搬到了所有序列任务上——包括时间序列预测。

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

Fri, 30 Jun 2023 09:00:00 +0000

第一次手动计算 Self-Attention 时，多数人会惊讶地发现：它完全不依赖输入顺序。若将 token 序列重新排列，各注意力分数也会随之同步重排——该函数严格满足置换等变性。因此，在让 Transformer 完成需要理解序列顺序的任务之前，必须显式注入位置信息。