时间序列 on Chen Kai Blog

时间序列模型（八）：Informer——高效长序列预测

Sun, 15 Dec 2024 09:00:00 +0000

Transformer 在序列建模上确实很强大，但只要序列一变长，问题就来了。普通自注意力机制在计算和显存上的开销都是 $\mathcal{O}(L^2)$ 级别——一周的小时级窗口（168 步）还能轻松处理，一个月窗口（720 步）就已经吃力，而三个月窗口（2160 步）在单张 GPU 上基本无法运行。偏偏现实世界中的长 horizon 预测任务，比如气象、能源、金融和 IoT，恰恰就落在这个区间。

时间序列模型（七）：N-BEATS——可解释的深度架构

Sat, 30 Nov 2024 09:00:00 +0000

2018 年 M4 预测竞赛提供了覆盖六种频率的 10 万条时间序列作为统一基准。排行榜一度被基于数十年统计预测经验手工调优的集成模型所主导，但最终胜出的却是一个纯神经网络——它无需任何统计预处理、特征工程或循环结构。这个模型正是 Oreshkin 等人提出的 N-BEATS：一个由全连接块堆叠而成、带有两条残差路径的架构。其可解释变体进一步将预测显式分解为多项式趋势与傅里叶季节性分量，使得经典统计学家梦寐以求的“可读分解”变得唾手可得。

时间序列模型（六）：时序卷积网络 (TCN)

Fri, 15 Nov 2024 09:00:00 +0000

在 2010 年代的大部分时间里，提到“深度学习用于时间序列”，默认就是 LSTM。这一局面在 2018 年被 Bai、Kolter 和 Koltun 发表的论文 An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 所改变。他们的结论出人意料地简洁：堆叠若干一维卷积，确保其因果性（不窥探未来）、让卷积核间隔呈指数扩张（dilation），再用残差连接包裹整个结构，直接训练即可。结果表明，这种 时序卷积网络（Temporal Convolutional Network, TCN）在各类任务中表现与 LSTM/GRU 相当甚至更优——而且训练速度快数倍，因为前向传播中的每个时间步均可并行计算。

时间序列模型（五）：时间序列的 Transformer 架构

Thu, 31 Oct 2024 09:00:00 +0000

2017 年那篇 Attention Is All You Need 把上一章的注意力机制推到了极致：根本不要 RNN 了。Transformer 完全用注意力堆叠出一个序列模型，没有一处递归、没有一个隐藏状态在时间上传播。最初它是为机器翻译设计的，但很快被搬到了所有序列任务上——包括时间序列预测。

时间序列模型（四）：Attention 机制——直接的长程依赖

Wed, 16 Oct 2024 09:00:00 +0000

RNN 和 LSTM 解决了"时间步太多"的问题，但留下了另一个更隐蔽的限制：信息必须逐步传递。要让第 100 步看到第 1 步的内容，得让那个信号沿着隐藏状态一路传 99 次——每一步都有衰减，每一步都得经过非线性挤压。即使 LSTM 的细胞状态再"高速公路"，也终究是单条车道、单向通行。

时间序列模型（三）：GRU——轻量门控与效率权衡

Tue, 01 Oct 2024 09:00:00 +0000

跑完 LSTM 一段时间后，你会冒出一个朴素的疑问：三个门是不是有点多？遗忘门和输入门看起来在干非常相似的事情——一个决定丢什么，一个决定加什么——能不能合并成一个？再者，那个独立的细胞状态有必要吗，能不能直接复用隐藏状态？

时间序列模型（二）：LSTM——门控机制与长期依赖

Mon, 16 Sep 2024 09:00:00 +0000

我第一次训练 RNN 是 2017 年，做一个根据过去 50 天的销售额预测下一天的小项目。前向算梯度时一切都挺正常，跑起来 loss 也在降，但模型对 30 天前的数据基本"失忆"——明明历史里有清晰的月度周期，模型偏偏只学到了"最近三天的趋势"。当时我以为是数据不够，加了样本、加了层数，问题反而更糟：训练 loss 突然跳到 NaN，一切归零。