标签
参数高效微调
Prefix-Tuning:为生成任务优化连续提示
Prefix-Tuning 冻结整个语言模型,只学习一组注入到注意力层的连续向量来引导生成。本文从注意力公式、重参数化、KV cache 机制到 GPT-2 上的实验,把这套方法和 Adapter、Prompt Tuning、LoRA 的边界讲清楚。
Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)
MoSLoRA 用一个 k×k 可学习 mixer 组合 k 个低秩子空间,整体重写为干净的 BWA 乘积,保留可合并性与零推理开销。