Transfer Learning on Chen Kai Blog

迁移学习（十二）：工业应用与最佳实践

Sun, 06 Jul 2025 09:00:00 +0000

这是整个系列的最后一篇。前面十一篇讲的是机制——预训练、微调、域适应、小样本与零样本、蒸馏、多任务、多模态、参数高效方法、持续学习、跨语言迁移。这一篇要谈的，是 notebook 关掉之后才开始的那部分工作：判断该不该用迁移学习，怎么把它嵌进一条真实的生产管线，以及怎么在六个月之后还能确认它仍然在正常工作。

迁移学习（十一）：跨语言迁移

Mon, 30 Jun 2025 09:00:00 +0000

英语有数据，但世界上有 7000 多种语言。跨语言迁移做的事情，就是让一个只在英文 IMDB 上训练过的情感分类器去看西班牙语推特，让一个在 SQuAD 上微调过的问答模型回答印地语问题，让一个从未见过任何斯瓦希里语标注的模型也能在斯瓦希里语命名实体识别上拿到能用的分数。

迁移学习（十）：持续学习

Tue, 24 Jun 2025 09:00:00 +0000

人去年学会了弹吉他，今天还能骑自行车。神经网络做不到。让一个视觉模型先在 CIFAR-10 上微调，再拿同一个模型去微调 SVHN，回过头测 CIFAR-10——准确率会跌到接近随机猜的水平。这就是灾难性遗忘（catastrophic forgetting）。如何让模型像人一样在源源不断到来的任务流 $\mathcal{T}_1, \mathcal{T}_2, \ldots$ 中持续吸收新知识，又不丢掉旧本事，正是**持续学习（continual learning，CL）**这个领域要回答的问题——而且要在"看不到过去数据"这个硬约束下回答。

迁移学习（九）：参数高效微调

Wed, 18 Jun 2025 09:00:00 +0000

GPT-3 有 1750 亿参数，全量微调一次要占 700 GB 显存，再加上梯度和优化器状态，单卡根本放不下；要为 100 个客户分别定制一份模型，光存储就 70 TB 起步。**参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）**给出的答案是：把预训练权重冻住，只训练一份不到 1% 的"增量"，单张消费级显卡就能微调几十亿乃至几百亿参数的模型，性能几乎不掉。

迁移学习（八）：多模态迁移

Thu, 12 Jun 2025 09:00:00 +0000

为什么模型从来没见过"缅甸猫"这个标签，却能正确识别一张缅甸猫的照片？传统监督学习需要每个类别有几千上万张标注样本，而 OpenAI 在 2021 年发布的 CLIP 完全绕开了这个限制：它把图像和自然语言描述压到同一个向量空间里，“分类"就退化成"哪句话离这张图最近”——而那些"句子"是你临时写的，不是模型训练时见过的。

迁移学习（七）：零样本学习

Fri, 06 Jun 2025 09:00:00 +0000

你这辈子没见过斑马。但我告诉你它"长得像马，身上画了黑白条纹"，下次走进动物园你一眼就能认出来。没标注样本、没有微调，只有一座语义桥梁把你已知的概念（马、条纹）和未知的物种连了起来。

迁移学习（六）：多任务学习

Sat, 31 May 2025 09:00:00 +0000

一辆自动驾驶汽车透过同一个摄像头要同时干三件事：检测车辆和行人、分割车道和可行驶区域、估计每个像素的距离。你完全可以训练三个独立的网络。代价是参数量乘以三、推理时多跑两次前向、并且白白浪费一个最显然的事实——这三个任务都需要同样的底层特征（边缘、表面、遮挡线索）。

迁移学习（五）：知识蒸馏

Sun, 25 May 2025 09:00:00 +0000

你训练了一个 340M 参数的 BERT，准确率 95%。产品需求是把它塞进一台手机，而手机最多能跑 10M 参数。你从头训一个 10M 的小模型，只能到 85%。这时候，知识蒸馏几乎能补上全部差距：让小模型学习大模型的输出分布，而不只是学习硬标签，最终能跑到 92%。

迁移学习（四）：小样本学习

Mon, 19 May 2025 09:00:00 +0000

给一个孩子看一张穿山甲的照片，他这辈子都能认出穿山甲。给深度学习模型看一张，它给你的回答和瞎猜没什么两样。小样本学习（Few-Shot Learning） 要做的，就是把这条鸿沟填上——让分类器在每类只有 1 到 10 个标注样本的情况下也能工作。

迁移学习（三）：域适应

Tue, 13 May 2025 09:00:00 +0000

你的自动驾驶模型在加州的晴天里跑得无懈可击。然后一进西雅图就开始下雨，Top-1 准确率从 95% 跌到 70%。模型本身没有变差——是数据分布变了，而你的训练集从未告诉它"傍晚的湿沥青"长什么样子。

迁移学习（二）：预训练与微调

Wed, 07 May 2025 09:00:00 +0000

2018 年 BERT 横空出世，几乎一夜之间改写了 NLP 的游戏规则：在 Wikipedia 和 BookCorpus 上预训练好的模型，只用几千条标注样本微调，就能击败那些被研究者打磨多年的任务专用架构。同样的剧情后来在视觉（ImageNet 预训练、SimCLR、MAE）、语音（wav2vec 2.0）、代码（Codex）领域反复上演。今天，“预训练一次、到处微调"已经是现代深度学习的默认配方。

迁移学习（一）：基础与核心概念

Thu, 01 May 2025 09:00:00 +0000

你刚刚花了两周时间，在一整柜 GPU 上训练出一个 ImageNet 分类器。周一早上，老板让你做一个胸片肺炎识别模型——而手里全部的标注数据只有 200 张。难道再排两周机器，从零再训一遍？