标签

多模态

Nov 20, 2025 NLP 技术前沿 32 分钟

多模态大模型深度解析：CLIP 的对比学习、BLIP-2 的 Q-Former 桥接架构、LLaVA 的视觉指令微调、Whisper 语音识别、GPT-4V 能力图谱以及 MMBench/MME/MMMU 评测体系——配可运行代码。