<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Vision-Language Models on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/vision-language-models/</link><description>Recent content in Vision-Language Models on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 12 Jun 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/vision-language-models/index.xml" rel="self" type="application/rss+xml"/><item><title>迁移学习（八）：多模态迁移</title><link>https://www.chenk.top/zh/transfer-learning/08-%E5%A4%9A%E6%A8%A1%E6%80%81%E8%BF%81%E7%A7%BB/</link><pubDate>Thu, 12 Jun 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/transfer-learning/08-%E5%A4%9A%E6%A8%A1%E6%80%81%E8%BF%81%E7%A7%BB/</guid><description>&lt;p>一个从未见过“缅甸猫”标签的模型，却能正确分类一张缅甸猫的图片。传统监督学习每个类别需要几百万张标注样本，而 OpenAI 在 2021 年发布的 CLIP 完全规避了这一限制：它将图像与自然语言描述共同映射到同一向量空间，此时“分类”即等价于从用户提供的任意候选句子中选出与该图像嵌入余弦相似度最高的一句。&lt;/p></description></item></channel></rss>