Tagged

多模态

Feb 27, 2026 Aliyun Bailian 4 min read

阿里云百炼实战(三):Qwen-Omni 多模态——视频、音频、图像理解

Qwen-Omni 生产实践:四种输入、文档没强调的流式必填、配上一个真实可跑的视频理解示例和合理的像素预算。

Nov 20, 2025 NLP 14 min read

自然语言处理(十一):多模态大模型

多模态大模型深度解析:CLIP的对比学习、BLIP-2的Q-Former桥接架构、LLaVA的视觉指令微调、Whisper语音识别、GPT-4V能力图谱以及MMBench/MME/MMMU评测体系——配可运行代码。