Tagged

注意力机制

Dec 28, 2025 Recommendation Systems 14 min read

推荐系统(十)—— 深度兴趣网络与注意力机制

从 DIN 的目标注意力到 DIEN 的 AUGRU、再到 BST 的 Transformer——阿里巴巴是怎样让 CTR 模型像主厨读懂客人那样读懂用户行为的。

Oct 16, 2025 NLP 15 min read

自然语言处理(四):注意力机制与Transformer

从 Seq2Seq 的瓶颈到 Attention Is All You Need,建立缩放点积注意力、多头注意力、位置编码和因果掩码的直觉,并用 PyTorch 从零搭一个完整 Transformer。

Apr 16, 2025 Linear Algebra 15 min read

深度学习中的线性代数 -- 从全连接到 Transformer

深度学习的核心就是大规模矩阵运算。本章从单个神经元到全连接层的矩阵形式,反向传播的矩阵链式法则,卷积的 im2col 技巧,注意力机制的矩阵操作,到 LoRA 低秩微调。