<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>注意力机制 on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6/</link><description>Recent content in 注意力机制 on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 16 Oct 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6/index.xml" rel="self" type="application/rss+xml"/><item><title>自然语言处理（四）：注意力机制与 Transformer</title><link>https://www.chenk.top/zh/nlp/04-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8Etransformer/</link><pubDate>Thu, 16 Oct 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/04-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8Etransformer/</guid><description>&lt;p>2017 年 6 月，Google Brain 和 Google Research 的八位研究者发表了一篇标题相当引人注目的论文：&lt;em>Attention Is All You Need&lt;/em>。这篇论文提出的 &lt;strong>Transformer&lt;/strong> 架构彻底抛弃了循环结构，不再使用 LSTM 或 GRU，也不再需要从左到右逐步扫描句子；相反，序列中的每个 token 都可以通过缩放点积注意力直接“看到”其他所有 token。&lt;/p></description></item></channel></rss>