迁移学习（八）：多模态迁移

Thu, 12 Jun 2025 09:00:00 +0000

一个从未见过“缅甸猫”标签的模型，却能正确分类一张缅甸猫的图片。传统监督学习每个类别需要几百万张标注样本，而 OpenAI 在 2021 年发布的 CLIP 完全规避了这一限制：它将图像与自然语言描述共同映射到同一向量空间，此时“分类”即等价于从用户提供的任意候选句子中选出与该图像嵌入余弦相似度最高的一句。

Vision-Language Models on Chen Kai Blog

迁移学习（八）：多模态迁移