时间序列模型（四）：Attention 机制——直接的长程依赖

Wed, 16 Oct 2024 09:00:00 +0000

RNN 和 LSTM 解决了"时间步太多"的问题，但留下了另一个更隐蔽的限制：信息必须逐步传递。要让第 100 步看到第 1 步的内容，得让那个信号沿着隐藏状态一路传 99 次——每一步都有衰减，每一步都得经过非线性挤压。即使 LSTM 的细胞状态再"高速公路"，也终究是单条车道、单向通行。

Attention on Chen Kai Blog

时间序列模型（四）：Attention 机制——直接的长程依赖