Transfer Learning on Chen Kai Blog

迁移学习（十二）：工业应用与最佳实践

Sun, 06 Jul 2025 09:00:00 +0000

一家金融科技初创公司的三人团队仅用两周便上线了一套欺诈检测模型，性能超越了此前由 12 名工程师耗时六个月构建的旧系统。秘诀在于他们没有从零设计基于规则的集成模型，而是在 5,000 条标注交易数据上对预训练 Transformer 模型进行了微调——该模型上线首月即多识别出 23% 的欺诈行为，并将误报率降低了一半。当工程副总裁问及旧团队为何耗时如此之久时，答案很简单：他们没有采用迁移学习。

迁移学习（十一）：跨语言迁移

Mon, 30 Jun 2025 09:00:00 +0000

英语拥有丰富的标注数据，而全球有 7000 多种语言。通过跨语言迁移，仅用英文 IMDB 数据训练的情感分类器可以直接分析西班牙语推文，在 SQuAD 上微调的问答模型能回答印地语问题，甚至从未接触过斯瓦希里语标注数据的模型也能完成可用的斯瓦希里语命名实体识别。

迁移学习（十）：持续学习

Tue, 24 Jun 2025 09:00:00 +0000

我今年能自学吉他，同时仍记得如何骑自行车；但神经网络却无法做到这一点。先在 CIFAR-10 上微调一个视觉模型，再在 SVHN 上继续微调——此时若重新在 CIFAR-10 上测试，准确率会骤降至接近随机猜测的水平。这一现象被称为灾难性遗忘（catastrophic forgetting）。如何让模型像人一样，在源源不断的任务流 $\mathcal{T}_1, \mathcal{T}_2, \ldots$ 中持续学习新知识，又不忘记旧技能，正是**持续学习（continual learning，CL）**要解决的核心问题——且必须在无法访问历史任务数据的前提下实现。

迁移学习（九）：参数高效微调

Wed, 18 Jun 2025 09:00:00 +0000

单张 GPU 如何微调 1750 亿参数的模型？只需更新 0.1% 的参数即可——参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）使这成为可能。在大多数基准测试中，其效果几乎与全量微调持平。本文将从数学原理出发，推导 LoRA、Adapter、Prefix-Tuning、Prompt-Tuning、BitFit 和 QLoRA 的设计逻辑，并用一张图帮助你选择合适的方法。

迁移学习（八）：多模态迁移

Thu, 12 Jun 2025 09:00:00 +0000

一个从未见过“缅甸猫”标签的模型，却能正确分类一张缅甸猫的图片。传统监督学习每个类别需要几百万张标注样本，而 OpenAI 在 2021 年发布的 CLIP 完全规避了这一限制：它将图像与自然语言描述共同映射到同一向量空间，此时“分类”即等价于从用户提供的任意候选句子中选出与该图像嵌入余弦相似度最高的一句。

迁移学习（七）：零样本学习

Fri, 06 Jun 2025 09:00:00 +0000

你从未见过斑马。如果我告诉你它外形似马、身披黑白相间条纹，下次在动物园看到斑马时，你就能一眼认出来——无需标注数据，也无需微调，只需一座语义桥梁，将你已知的概念（如马、条纹）与未知类别（如斑马）关联起来。

迁移学习（六）：多任务学习

Sat, 31 May 2025 09:00:00 +0000

一辆使用单摄像头的自动驾驶汽车，需要同时完成三件事：检测车辆与行人、分割车道线与可行驶区域，以及估计每个像素的深度。若为这三个任务分别训练独立网络，不仅参数量会增至三倍，推理时还需执行三次前向传播，更关键的是，这种做法忽略了它们共享同一套底层特征（如边缘、表面结构和遮挡线索）这一事实。

迁移学习（五）：知识蒸馏

Sun, 25 May 2025 09:00:00 +0000

我训练了一个 340M 参数的 BERT 模型，准确率达到 95%，但产品团队希望将其部署到手机上，而手机只能容纳约 10M 参数。如果从头训练一个 10M 的小模型，准确率只能达到 85%；这时，知识蒸馏几乎可以弥补大部分差距——通过让小模型学习大模型的输出分布，而不仅仅是硬标签，最终准确率可以提升到 92%。

迁移学习（四）：小样本学习

Mon, 19 May 2025 09:00:00 +0000

给小孩看一张穿山甲的照片，他这辈子都能认出穿山甲；而给深度学习模型看一张照片，它的回答基本是随机瞎猜。小样本学习旨在填补这一差距，使分类器在每类只有 1 到 10 个标注样本的情况下也能正常工作。

迁移学习（三）：域适应

Tue, 13 May 2025 09:00:00 +0000

我的自动驾驶模型在加州晴天的高速公路上表现堪称完美，但一到西雅图下雨，Top-1 准确率就从 95% 直接跌到 70%。问题不在于模型变差了，而是数据分布发生了偏移——训练集里压根没有傍晚湿滑沥青路面的样本。

迁移学习（二）：预训练与微调

Wed, 07 May 2025 09:00:00 +0000

2018 年，BERT 横空出世，几乎一夜之间改变了 NLP 的游戏规则。一个在 Wikipedia 和 BookCorpus 上预训练的模型，只需几千条标注数据进行微调，就能超越研究者们花费数年精心设计的任务专用架构。同样的故事后来在视觉领域（ImageNet 预训练、SimCLR、MAE）、语音领域（wav2vec 2.0）以及代码领域（Codex）不断重演。如今，“一次预训练，到处微调”已经成为现代深度学习的标准做法。

迁移学习（一）：基础与核心概念

Thu, 01 May 2025 09:00:00 +0000

我花了整整两周时间，用一整柜 GPU 训练出一个 ImageNet 分类器。周一早上，团队负责人突然要求我做一个胸片肺炎识别模型，而手头的标注数据只有 200 张——难道还要再排队两周 GPU 时间，从零开始训练吗？