自然语言处理（四）：注意力机制与 Transformer

Thu, 16 Oct 2025 09:00:00 +0000

2017 年 6 月，Google Brain 和 Google Research 的八位研究者发表了一篇标题相当引人注目的论文：Attention Is All You Need。这篇论文提出的 Transformer 架构彻底抛弃了循环结构，不再使用 LSTM 或 GRU，也不再需要从左到右逐步扫描句子；相反，序列中的每个 token 都可以通过缩放点积注意力直接“看到”其他所有 token。

注意力机制 on Chen Kai Blog

自然语言处理（四）：注意力机制与 Transformer