自然语言处理（十一）：多模态大模型

Thu, 20 Nov 2025 09:00:00 +0000

人类从来不会只通过单一感官来理解世界——我们看图表时会同时读标题，观察表情时会留意语气，讨论代码 bug 时也会瞥一眼截图。然而，纯文本语言模型对这些丰富的多模态信息完全无感，既“听不见”也“看不见”。多模态大语言模型（Multimodal Large Language Models, MLLMs） 的出现正是为了填补这一空白：它们将图像、音频和视频映射到与语言模型一致的表示空间中，从而让模型能够理解和处理多模态信息。

BLIP-2 on Chen Kai Blog

自然语言处理（十一）：多模态大模型