标签

CLIP

Nov 20, 2025 NLP 技术前沿 32 分钟

自然语言处理(十一):多模态大模型

多模态大模型深度解析:CLIP 的对比学习、BLIP-2 的 Q-Former 桥接架构、LLaVA 的视觉指令微调、Whisper 语音识别、GPT-4V 能力图谱以及 MMBench/MME/MMMU 评测体系——配可运行代码。

Jun 12, 2025 迁移学习 44 分钟

迁移学习(八):多模态迁移

推导对比学习的 InfoNCE 损失与互信息下界,讲透 CLIP 双塔结构、BLIP-2 的 Q-Former 桥接策略、跨模态检索与三种融合范式,并给出可运行的 PyTorch 实现。

Jun 6, 2025 迁移学习 24 分钟

迁移学习(七):零样本学习

从第一性原理推导零样本学习:DAP 属性原型、双线性与深度兼容性函数、DeViSE、生成式 ZSL 的 f-CLSWGAN、广义 ZSL 的偏置问题与校准方法,以及 CLIP 这种视觉-语言预训练带来的范式跃迁,附 PyTorch 核心实现。