Tagged

Transformer

Dec 16, 2025 Recommendation Systems 21 min read

拆解现代 LLM 的内部结构：Pre-norm + RMSNorm + SwiGLU + RoPE + GQA、KV Cache 机制、FlashAttention 的 IO 调度、稀疏 MoE，以及 INT8/INT4 量化。

Oct 16, 2025 NLP 15 min read

从 Seq2Seq 的瓶颈到 Attention Is All You Need，建立缩放点积注意力、多头注意力、位置编码和因果掩码的直觉，并用 PyTorch 从零搭一个完整 Transformer。

Jun 3, 2025 Standalone 11 min read

系统梳理 Transformer 位置编码：为什么 Attention 需要它、绝对/相对/RoPE/ALiBi 各方案怎么算、长上下文外推时哪种最稳，以及如何为新模型选型。

Apr 30, 2025 Linear Algebra 19 min read

系列终章：把量子门、图卷积、注意力、LoRA、张量网络、矩阵指数、随机矩阵到自由概率、拓扑数据分析这些前沿话题串成一条线，再回望整套书十八章的依赖图与几何/数值/计算三角形。

Apr 16, 2025 Linear Algebra 15 min read

深度学习的核心就是大规模矩阵运算。本章从单个神经元到全连接层的矩阵形式，反向传播的矩阵链式法则，卷积的 im2col 技巧，注意力机制的矩阵操作，到 LoRA 低秩微调。

Dec 15, 2024 Time Series Forecasting 12 min read

Informer 用 ProbSparse 注意力、编码器蒸馏、生成式解码器把 Transformer 复杂度从 O(L^2) 降到 O(L log L)。完整数学推导、PyTorch 代码与 ETT/气象 benchmark。

Oct 31, 2024 Time Series Forecasting 11 min read

时间序列的 Transformer 全景：编码器-解码器结构、时序位置编码、O(n^2) 注意力瓶颈、Decoder-only 自回归预测与 Patching 策略。含 Autoformer / FEDformer / Informer / PatchTST 选型与可直接运行的实现。