<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Attention on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/attention/</link><description>Recent content in Attention on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Wed, 16 Oct 2024 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/attention/index.xml" rel="self" type="application/rss+xml"/><item><title>时间序列模型（四）：Attention 机制——直接的长程依赖</title><link>https://www.chenk.top/zh/time-series/04-attention%E6%9C%BA%E5%88%B6/</link><pubDate>Wed, 16 Oct 2024 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/time-series/04-attention%E6%9C%BA%E5%88%B6/</guid><description>&lt;p>RNN 和 LSTM 解决了&amp;quot;时间步太多&amp;quot;的问题，但留下了另一个更隐蔽的限制：信息必须&lt;strong>逐步传递&lt;/strong>。要让第 100 步看到第 1 步的内容，得让那个信号沿着隐藏状态一路传 99 次——每一步都有衰减，每一步都得经过非线性挤压。即使 LSTM 的细胞状态再&amp;quot;高速公路&amp;quot;，也终究是单条车道、单向通行。&lt;/p></description></item></channel></rss>