Tagged

Transformer

Dec 16, 2025 Recommendation Systems 21 min read

推荐系统(六)—— 序列推荐与会话建模

序列推荐方法全景:从马尔可夫链、GRU4Rec、Caser,到 SASRec、BERT4Rec、BST、SR-GNN,讲清模型动机、关键公式与实现细节,并用图示对比性能与代价。

Nov 10, 2025 NLP 13 min read

自然语言处理(九):大语言模型架构深度解析

拆解现代 LLM 的内部结构:Pre-norm + RMSNorm + SwiGLU + RoPE + GQA、KV Cache 机制、FlashAttention 的 IO 调度、稀疏 MoE,以及 INT8/INT4 量化。

Oct 16, 2025 NLP 15 min read

自然语言处理(四):注意力机制与Transformer

从 Seq2Seq 的瓶颈到 Attention Is All You Need,建立缩放点积注意力、多头注意力、位置编码和因果掩码的直觉,并用 PyTorch 从零搭一个完整 Transformer。

Jun 3, 2025 Standalone 11 min read

浅谈位置编码:从 Sinusoidal 到 RoPE 与 ALiBi

系统梳理 Transformer 位置编码:为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳,以及如何为新模型选型。

Apr 30, 2025 Linear Algebra 19 min read

前沿应用与总结 -- 量子计算、GNN、大模型,与十八章回望

系列终章:把量子门、图卷积、注意力、LoRA、张量网络、矩阵指数、随机矩阵到自由概率、拓扑数据分析这些前沿话题串成一条线,再回望整套书十八章的依赖图与几何/数值/计算三角形。

Apr 16, 2025 Linear Algebra 15 min read

深度学习中的线性代数 -- 从全连接到 Transformer

深度学习的核心就是大规模矩阵运算。本章从单个神经元到全连接层的矩阵形式,反向传播的矩阵链式法则,卷积的 im2col 技巧,注意力机制的矩阵操作,到 LoRA 低秩微调。

Dec 15, 2024 Time Series Forecasting 12 min read

时间序列模型(八):Informer -- 高效长序列预测

Informer 用 ProbSparse 注意力、编码器蒸馏、生成式解码器把 Transformer 复杂度从 O(L^2) 降到 O(L log L)。完整数学推导、PyTorch 代码与 ETT/气象 benchmark。

Oct 31, 2024 Time Series Forecasting 11 min read

时间序列模型(五):时间序列的 Transformer 架构

时间序列的 Transformer 全景:编码器-解码器结构、时序位置编码、O(n^2) 注意力瓶颈、Decoder-only 自回归预测与 Patching 策略。含 Autoformer / FEDformer / Informer / PatchTST 选型与可直接运行的实现。