<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Transformer on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/transformer/</link><description>Recent content in Transformer on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 27 Mar 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/transformer/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型工程（一）：Transformer 到 MoE</title><link>https://www.chenk.top/zh/llm-engineering/01-architectures/</link><pubDate>Fri, 27 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/01-architectures/</guid><description>&lt;p>2017 年提出的 Transformer 模块，到 2026 年依然是所有生产级大语言模型（LLM）的骨架，但其内部组件几乎已被全面替换、稀疏化或专业化。本系列将端到端覆盖现代 LLM 技术栈——架构、训练、推理、检索增强、评估、安全与部署。第一章聚焦模块本身：2026 年注意力机制的实际形态、MoE 如何打破参数量与计算量（FLOPs）的绑定关系，以及 Mamba、RWKV 等非注意力架构在哪些场景下真正优于 Transformer。&lt;/p></description></item><item><title>自然语言处理（九）：大语言模型架构深度解析</title><link>https://www.chenk.top/zh/nlp/09-%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</link><pubDate>Mon, 10 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/09-%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</guid><description>&lt;p>2017 年的 Transformer 论文提出了一种模块，如今所有生产环境中的大语言模型（LLM）依然沿用其整体框架，但内部几乎所有组件都经历了彻底替换：后置归一化（post-norm）被前置归一化（pre-norm）取代，LayerNorm 被 RMSNorm 替换，GELU 激活函数变成了 SwiGLU，正弦位置编码也被旋转位置编码（RoPE）所替代。多头注意力机制（Multi-head Attention）演进为分组查询注意力（Grouped-Query Attention, GQA），稠密前馈网络（FFN）在某些模型中甚至被稀疏专家混合模型（Mixture of Experts, MoE）所取代；更重要的是，推理过程中最核心的数据结构——KV 缓存（KV Cache）——在原始论文中完全没有提及。&lt;/p></description></item><item><title>自然语言处理（四）：注意力机制与 Transformer</title><link>https://www.chenk.top/zh/nlp/04-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8Etransformer/</link><pubDate>Thu, 16 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/04-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8Etransformer/</guid><description>&lt;p>2017 年 6 月，Google Brain 和 Google Research 的八位研究者发表了一篇标题相当引人注目的论文：&lt;em>Attention Is All You Need&lt;/em>。这篇论文提出的 &lt;strong>Transformer&lt;/strong> 架构彻底抛弃了循环结构，不再使用 LSTM 或 GRU，也不再需要从左到右逐步扫描句子；相反，序列中的每个 token 都可以通过缩放点积注意力直接“看到”其他所有 token。&lt;/p></description></item><item><title>线性代数（十六）：深度学习中的线性代数——从全连接到 Transformer</title><link>https://www.chenk.top/zh/linear-algebra/16-%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0/</link><pubDate>Wed, 16 Apr 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/linear-algebra/16-%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E7%BA%BF%E6%80%A7%E4%BB%A3%E6%95%B0/</guid><description>&lt;p>去掉那些营销包装，深度网络的本质其实很简单：一连串矩阵乘法，中间用逐元素非线性函数连接起来。前向传播、反向传播、卷积、注意力机制、归一化、微调——所有这些所谓的“技巧”不过是同一个代数主题的小小变化。一旦看清背后的矩阵，这个领域就不再是零散的配方，而是统一的语言。&lt;/p></description></item><item><title>时间序列模型（八）：Informer——高效长序列预测</title><link>https://www.chenk.top/zh/time-series/08-informer%E9%95%BF%E5%BA%8F%E5%88%97%E9%A2%84%E6%B5%8B/</link><pubDate>Sun, 15 Dec 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/time-series/08-informer%E9%95%BF%E5%BA%8F%E5%88%97%E9%A2%84%E6%B5%8B/</guid><description>&lt;p>Transformer 在序列建模上确实很强大，但只要序列一变长，问题就来了。普通自注意力机制在计算和显存上的开销都是 &lt;span class="math-inline">$\mathcal{O}(L^2)$&lt;/span>
 级别——一周的小时级窗口（168 步）还能轻松处理，一个月窗口（720 步）就已经吃力，而三个月窗口（2160 步）在单张 GPU 上基本无法运行。偏偏现实世界中的长 horizon 预测任务，比如气象、能源、金融和 IoT，恰恰就落在这个区间。&lt;/p></description></item><item><title>时间序列模型（五）：时间序列的 Transformer 架构</title><link>https://www.chenk.top/zh/time-series/05-transformer%E6%9E%B6%E6%9E%84/</link><pubDate>Thu, 31 Oct 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/time-series/05-transformer%E6%9E%B6%E6%9E%84/</guid><description>&lt;p>2017 年那篇 &lt;em>Attention Is All You Need&lt;/em> 把上一章的注意力机制推到了极致：&lt;strong>根本不要 RNN 了&lt;/strong>。Transformer 完全用注意力堆叠出一个序列模型，没有一处递归、没有一个隐藏状态在时间上传播。最初它是为机器翻译设计的，但很快被搬到了所有序列任务上——包括时间序列预测。&lt;/p></description></item><item><title>浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi</title><link>https://www.chenk.top/zh/standalone/%E6%B5%85%E8%B0%88%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81/</link><pubDate>Fri, 30 Jun 2023 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E6%B5%85%E8%B0%88%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81/</guid><description>&lt;p>第一次手动计算 Self-Attention 时，多数人会惊讶地发现：它&lt;strong>完全不依赖输入顺序&lt;/strong>。若将 token 序列重新排列，各注意力分数也会随之同步重排——该函数严格满足置换等变性。因此，在让 Transformer 完成需要理解序列顺序的任务之前，必须显式注入位置信息。&lt;/p></description></item></channel></rss>