Time Series on Chen Kai Blog

时间序列模型（八）：Informer -- 高效长序列预测

Sun, 15 Dec 2024 09:00:00 +0000

Transformer 做序列建模非常好用——直到序列变长。原始自注意力的算力和显存都是 $\mathcal{O}(L^2)$，所以一周小时级窗口（168 步）还行，一个月窗口（720 步）就开始痛苦，三个月窗口（2160 步）在单张 GPU 上基本不可能。而真实的长 horizon 预测——气象、能源、金融、IoT——恰好都在这个区间。

时间序列模型（七）：N-BEATS -- 可解释的深度架构

Sat, 30 Nov 2024 09:00:00 +0000

2018 年 M4 预测竞赛把 100,000 条覆盖六种频率的序列摆到一个统一榜单上。占据榜单前几位的是几十年统计预测手艺打磨出来的精调集成。然后一个纯神经网络——没有统计预处理、没有特征工程、没有递归——直接拿了第一名。这个网络就是 Oreshkin 等人的 N-BEATS：若干全连接块沿着两条残差路径堆叠在一起。它的可解释版本还把预测拆成多项式趋势和 Fourier 季节性，连统计学家最在意的"可读分解"也免费送了。

时间序列模型（六）：时序卷积网络 (TCN)

Fri, 15 Nov 2024 09:00:00 +0000

整个 2010 年代，“用深度学习做时间序列"基本上等价于"上 LSTM”。这件事在 2018 年被 Bai、Kolter、Koltun 的 An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 改变。结论简单到令人有些不爽：把若干个 1D 卷积叠起来，让它们都是因果的（不偷看��来��，让卷积核的步距按指数膨胀（dilation），整个块外面套一层残差连接，然后训练。在一个又一个任务上，这个时序卷积网络（TCN）的表现都和 LSTM/GRU 持平甚至更好——而且训练快好几倍，因为它的前向传播在每一个时间步上都是并行的。

时间序列模型（五）：时间序列的 Transformer 架构

Thu, 31 Oct 2024 09:00:00 +0000

本章要点

把完整的 encoder-decoder Transformer 拆给时间序列重新讲一遍
为什么必须注入位置信息，正弦 / 学习式 / 时间感知三种编码的差异
多头注意力在时间序列上到底学到了什么
朴素 attention 在哪儿撞墙（O(n²)），以及四类解决方案：稀疏 / 线性 / Patching / Decoder-only
一份干净的 PyTorch 参考实现，附 Autoformer / FEDformer / Informer / PatchTST 的选型建议

前置知识

自注意力与多头注意力（第 4 篇）
编码器-解码器结构与 teacher forcing
PyTorch 基础（nn.Module、训练循环）

1. 为什么时间序列要用 Transformer

LSTM / GRU 一步一步地处理序列，由此带来三个问题：

时间序列模型（四）：Attention 机制 -- 直接的长程依赖

Wed, 16 Oct 2024 09:00:00 +0000

本章要点

循环网络在长程依赖上为什么吃亏，注意力如何一击破解。
Query / Key / Value 机制、Scaled dot-product 公式，以及为什么必须除以 $\sqrt{d_k}$。
两种经典打分函数：Bahdanau（加性）和 Luong（乘性）。
如何把 Attention 接到 LSTM 编码器/解码器 上做时间序列预测。
多头注意力在时序场景下的"四种典型分工"：近期、长程、周期、异常。
$O(n^2)$ 显存墙，以及稀疏 / 线性注意力如何绕过去。
一个完整的 股价预测案例，并用注意力权重叠加图解释模型决策。

前置：RNN/LSTM/GRU 的基本概念（第 2-3 部分）、线性代数、PyTorch 基本操作。

时间序列模型（三）：GRU -- 轻量门控与效率权衡

Tue, 01 Oct 2024 09:00:00 +0000

本章要点

GRU 的更新门 $z_t$ 和重置门 $r_t$ 如何用更少的门、更少的状态实现 LSTM 级别的记忆能力。
为什么 GRU 比 LSTM 正好少 25% 参数，这在工程上意味着什么。
怎么读 GRU 的门激活，把它当作训练诊断工具。
一份实用的 GRU vs LSTM 决策矩阵，附参数、速度、预测质量的基准对比。
一份干净、生产级的 PyTorch 参考实现，包含真正影响稳定性的初始化与正则化技巧。

前置知识

第二篇 LSTM 中的三门机制。
基本 PyTorch（nn.Module、autograd、optimizer）。
知道 vanilla RNN 因为梯度反复经过 tanh 非线性而出现梯度消失。

图 1. GRU 单元。两个门（r、z）+ 一个状态（h），替代 LSTM 的三个门 + 独立细胞状态。橙色的 (1 - z) ⊙ h_{t-1} 跳跃路径就是让长程依赖可学的线性梯度高速公路。

时间序列模型（二）：LSTM -- 门控机制与长期依赖

Mon, 16 Sep 2024 09:00:00 +0000

本章要点

为什么普通 RNN 在长序列上失败，LSTM 如何修复梯度问题
每个门（遗忘门、输入门、输出门）的直觉与"细胞状态高速公路"
如何为单步与多步时间序列预测构建 LSTM 的输入/输出
实战配方：正则化、回望长度选择、双向 vs 堆叠 LSTM、LSTM vs GRU 的取舍

前置知识

神经网络基础（前向传播、反向传播）
熟悉 PyTorch（nn.Module、张量、优化器）
本系列第一部分（推荐但非必需）

1. LSTM 要解决的问题

$$h_t = \tanh(W_h h_{t-1} + W_x x_t + b).$$$$\frac{\partial h_T}{\partial h_k} = \prod_{t=k+1}^{T} \mathrm{diag}\!\left(1 - h_t^2\right) W_h.$$

两种坏情况都会发生：

时间序列模型（一）：传统统计模型

Sun, 01 Sep 2024 09:00:00 +0000

下一篇：LSTM 深度解析 –>

本章要点

平稳性为什么是整个 ARIMA 家族的入场券，差分如何换来它。
像 Box-Jenkins 学派那样阅读 ACF / PACF：用 “截尾 vs 拖尾” 这条规则识别 $p$ 与 $q$。
ARIMA / SARIMA 的完整机器，以及季节性如何通过滞后 $s$ 算子被纳入模型。
VAR、GARCH、指数平滑、Prophet 与卡尔曼滤波如何被装进同一张地图：均值动态 vs. 方差动态 vs. 状态空间递推。
一条决策规则：什么时候传统模型就够了，什么时候必须升级到本系列后面的深度模型。

前置知识

基本的概率与统计（均值、方差、协方差、相关系数）。
熟悉 NumPy 和 pandas 的时间索引。
VAR / 卡尔曼小节会用到一点线性代数（矩阵乘法、特征值）。

1. 为什么传统模型仍然重要

在深度学习时代之前，时间序列工具箱已经相当完备。ARIMA 抓线性自相关，SARIMA 把日历效应补上，VAR 推广到多元，GARCH 描述方差动态，卡尔曼滤波则在状态空间框架下统一了上面所有人。它们共享三条深度模型并不免费提供的优点：