标签
LoRA
大模型工程(四):SFT、DPO 与 RLHF
SFT、DPO、RLHF、RLAIF 各自具体在优化什么,奖励模型在哪里失败,KL 约束的作用,LoRA vs 全量微调那场争论,以及 2026 年生产里实际跑的 post-training 配方。
自然语言处理(八):模型微调与 PEFT
深入参数高效微调:LoRA 为什么用低秩更新就够、QLoRA 把 7B 模型塞进 6GB 显存的内存账本、Adapter 与 Prefix-Tuning 的取舍,以及生产环境怎么选。
迁移学习(九):参数高效微调
从低秩适配的数学原理出发,系统讲解 LoRA、Adapter、Prefix-Tuning、Prompt-Tuning、BitFit、QLoRA 等参数高效微调方法,附 LoRA 从零实现与方法选型指南。
迁移学习(二):预训练与微调
预训练如何从无标注数据中学到强大的先验,微调如何把它适配到具体任务。涵盖对比学习、掩码语言模型、判别式学习率、层冻结、灾难性遗忘、LoRA,以及一个工业级 BERT 微调实现。
Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)
MoSLoRA 用一个 k×k 可学习 mixer 组合 k 个低秩子空间,整体重写为干净的 BWA 乘积,保留可合并性与零推理开销。



