Tagged

Whisper

Nov 20, 2025 NLP 14 min read

自然语言处理(十一):多模态大模型

多模态大模型深度解析:CLIP的对比学习、BLIP-2的Q-Former桥接架构、LLaVA的视觉指令微调、Whisper语音识别、GPT-4V能力图谱以及MMBench/MME/MMMU评测体系——配可运行代码。