Tagged

LoRA

Nov 5, 2025 NLP 11 min read

自然语言处理（八）：模型微调与PEFT

深入参数高效微调：LoRA 为什么用低秩更新就够、QLoRA 把 7B 模型塞进 6GB 显存的内存账本、Adapter 与 Prefix-Tuning 的取舍，以及生产环境怎么选。

Jun 18, 2025 Transfer Learning 11 min read

迁移学习（九）：参数高效微调

从低秩适配的数学原理出发，系统讲解 LoRA、Adapter、Prefix-Tuning、Prompt-Tuning、BitFit、QLoRA 等参数高效微调方法，附 LoRA 从零实现与方法选型指南。

May 7, 2025 Transfer Learning 14 min read

迁移学习（二）：预训练与微调

预训练如何从无标注数据中学到强大的先验，微调如何把它适配到具体任务。涵盖对比学习、掩码语言模型、判别式学习率、层冻结、灾难性遗忘、LoRA，以及一个工业级 BERT 微调实现。

Apr 30, 2025 Linear Algebra 19 min read

前沿应用与总结 -- 量子计算、GNN、大模型，与十八章回望

系列终章：把量子门、图卷积、注意力、LoRA、张量网络、矩阵指数、随机矩阵到自由概率、拓扑数据分析这些前沿话题串成一条线，再回望整套书十八章的依赖图与几何/数值/计算三角形。

Apr 16, 2025 Linear Algebra 15 min read

深度学习中的线性代数 -- 从全连接到 Transformer

深度学习的核心就是大规模矩阵运算。本章从单个神经元到全连接层的矩阵形式，反向传播的矩阵链式法则，卷积的 im2col 技巧，注意力机制的矩阵操作，到 LoRA 低秩微调。

Apr 15, 2023 Standalone 11 min read

Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)

LoRA 把"全量微调"压缩成一个低秩更新，在工程上几乎是免费的：参数少、训练稳、能合并回原权重，因此部署时和原模型一样便宜。但只要你的微调数据稍微"杂"一点——把代码、数学、指令跟随、写作放到一起——单一低秩子空间就显得不够用了。直觉上的解法是把 $r$ 调大，可惜代价线性增长，而且本质上依然只有一个子空间，只是更"胖"了。