Tagged

CLIP

Nov 20, 2025 NLP 14 min read

多模态大模型深度解析：CLIP的对比学习、BLIP-2的Q-Former桥接架构、LLaVA的视觉指令微调、Whisper语音识别、GPT-4V能力图谱以及MMBench/MME/MMMU评测体系——配可运行代码。

Jun 12, 2025 Transfer Learning 12 min read

推导对比学习的 InfoNCE 损失与互信息下界，讲透 CLIP 双塔结构、BLIP-2 的 Q-Former 桥接策略、跨模态检索与三种融合范式，并给出可运行的 PyTorch 实现。

Jun 6, 2025 Transfer Learning 12 min read

从第一性原理推导零样本学习：DAP 属性原型、双线性与深度兼容性函数、DeViSE、生成式 ZSL 的 f-CLSWGAN、广义 ZSL 的偏置问题与校准方法，以及 CLIP 这种视觉-语言预训练带来的范式跃迁，附 PyTorch 核心实现。