标签

LLaVA

Nov 20, 2025 NLP 技术前沿 32 分钟

自然语言处理(十一):多模态大模型

多模态大模型深度解析:CLIP 的对比学习、BLIP-2 的 Q-Former 桥接架构、LLaVA 的视觉指令微调、Whisper 语音识别、GPT-4V 能力图谱以及 MMBench/MME/MMMU 评测体系——配可运行代码。