<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>BLIP-2 on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/blip-2/</link><description>Recent content in BLIP-2 on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 20 Nov 2025 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/blip-2/index.xml" rel="self" type="application/rss+xml"/><item><title>自然语言处理（十一）：多模态大模型</title><link>https://www.chenk.top/zh/nlp/11-%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link><pubDate>Thu, 20 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/11-%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/</guid><description>&lt;p>人类从来不会只通过单一感官来理解世界——我们看图表时会同时读标题，观察表情时会留意语气，讨论代码 bug 时也会瞥一眼截图。然而，纯文本语言模型对这些丰富的多模态信息完全无感，既“听不见”也“看不见”。&lt;strong>多模态大语言模型（Multimodal Large Language Models, MLLMs）&lt;/strong> 的出现正是为了填补这一空白：它们将图像、音频和视频映射到与语言模型一致的表示空间中，从而让模型能够理解和处理多模态信息。&lt;/p></description></item></channel></rss>