Tagged

CLIP

Nov 20, 2025 NLP 14 min read

自然语言处理(十一):多模态大模型

多模态大模型深度解析:CLIP的对比学习、BLIP-2的Q-Former桥接架构、LLaVA的视觉指令微调、Whisper语音识别、GPT-4V能力图谱以及MMBench/MME/MMMU评测体系——配可运行代码。

Jun 12, 2025 Transfer Learning 12 min read

迁移学习(八):多模态迁移

推导对比学习的 InfoNCE 损失与互信息下界,讲透 CLIP 双塔结构、BLIP-2 的 Q-Former 桥接策略、跨模态检索与三种融合范式,并给出可运行的 PyTorch 实现。

Jun 6, 2025 Transfer Learning 12 min read

迁移学习(七):零样本学习

从第一性原理推导零样本学习:DAP 属性原型、双线性与深度兼容性函数、DeViSE、生成式 ZSL 的 f-CLSWGAN、广义 ZSL 的偏置问题与校准方法,以及 CLIP 这种视觉-语言预训练带来的范式跃迁,附 PyTorch 核心实现。