PEFT on Chen Kai Blog

自然语言处理（八）：模型微调与 PEFT

Wed, 05 Nov 2025 09:00:00 +0000

2020 年，微调一个 70 亿参数的语言模型还是一项需要专门预算的工程：八张 A100 显卡、几天时间，外加一位懂得调试梯度检查点的工程师；而到了 2024 年，一名研究生用一台笔记本电脑就能完成。从这两个世界之间的鸿沟，几乎完全被两篇论文填平——胡等人（Hu et al.）在 ICLR 2022 提出的 LoRA，以及 Dettmers 等人在 NeurIPS 2023 发表的 QLoRA。

Prefix-Tuning：为生成任务优化连续提示

Tue, 29 Jul 2025 09:00:00 +0000

将 GPT-2 微调到具体任务上需要额外存储 1.5B 参数的权重；切换十几个任务时，存储和上线成本会让团队望而却步，更不用说实现“一份基模 + 多任务共享”的理想架构。Prefix-Tuning（Li & Liang, 2021）走了一条相反的路：模型权重一个不动，只学一小段连续向量——也就是论文里所说的“前缀”——在每一层注意力里被当作“已经在那里的上下文”喂进去。模型本身保持不变，只需更换前缀，即可赋予模型对应任务的适配行为。

迁移学习（九）：参数高效微调

Wed, 18 Jun 2025 09:00:00 +0000

单张 GPU 如何微调 1750 亿参数的模型？只需更新 0.1% 的参数即可——参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）使这成为可能。在大多数基准测试中，其效果几乎与全量微调持平。本文将从数学原理出发，推导 LoRA、Adapter、Prefix-Tuning、Prompt-Tuning、BitFit 和 QLoRA 的设计逻辑，并用一张图帮助你选择合适的方法。

Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)

Sun, 01 Sep 2024 09:00:00 +0000

LoRA 将全量微调压缩为一个低秩更新，在工程上近乎零成本：参数量少、训练稳定、可合并回原权重，因此部署开销与原模型完全一致。然而，一旦微调数据具备一定异质性——例如混合了代码、数学、指令遵循和文本生成任务——单一低秩子空间便难以充分建模。直觉上的解法是把 $$r$$ 调大，可惜代价线性增长，而且本质上依然只有一个子空间，只是更“胖”了。