Tagged

注意力机制

Dec 28, 2025 Recommendation Systems 14 min read

从 Seq2Seq 的瓶颈到 Attention Is All You Need，建立缩放点积注意力、多头注意力、位置编码和因果掩码的直觉，并用 PyTorch 从零搭一个完整 Transformer。

Apr 16, 2025 Linear Algebra 15 min read

深度学习的核心就是大规模矩阵运算。本章从单个神经元到全连接层的矩阵形式，反向传播的矩阵链式法则，卷积的 im2col 技巧，注意力机制的矩阵操作，到 LoRA 低秩微调。