Tagged
注意力机制
推荐系统(十)—— 深度兴趣网络与注意力机制
从 DIN 的目标注意力到 DIEN 的 AUGRU、再到 BST 的 Transformer——阿里巴巴是怎样让 CTR 模型像主厨读懂客人那样读懂用户行为的。
自然语言处理(四):注意力机制与Transformer
从 Seq2Seq 的瓶颈到 Attention Is All You Need,建立缩放点积注意力、多头注意力、位置编码和因果掩码的直觉,并用 PyTorch 从零搭一个完整 Transformer。
深度学习中的线性代数 -- 从全连接到 Transformer
深度学习的核心就是大规模矩阵运算。本章从单个神经元到全连接层的矩阵形式,反向传播的矩阵链式法则,卷积的 im2col 技巧,注意力机制的矩阵操作,到 LoRA 低秩微调。