<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Multimodal on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/multimodal/</link><description>Recent content in Multimodal on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Fri, 27 Feb 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/multimodal/index.xml" rel="self" type="application/rss+xml"/><item><title>阿里云百炼（三）：Qwen-Omni 多模态理解</title><link>https://www.chenk.top/zh/aliyun-bailian/03-qwen-omni-multimodal/</link><pubDate>Fri, 27 Feb 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-bailian/03-qwen-omni-multimodal/</guid><description>&lt;p>在所有百炼模型中，Qwen-Omni 帮我规避了最多的产品路线图问题：过去处理“帮我看看这段 2 分钟宣传视频讲了什么”这类需求，往往需要三周时间——先提取视频帧，再为每一帧生成描述，最后拼接成连贯文本；如今只需一个 HTTP 请求即可搞定。但文档对某些关键细节语焉不详，尤其是“必须启用流式传输”这一硬性要求，已让不止一个团队白白耗费半天排查问题。下面帮你避开这个坑。&lt;/p></description></item><item><title>多模态大模型与下游任务研究</title><link>https://www.chenk.top/zh/standalone/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%8F%8A%E4%B8%8B%E6%B8%B8%E4%BB%BB%E5%8A%A1%E7%A0%94%E7%A9%B6/</link><pubDate>Sat, 09 Apr 2022 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%8F%8A%E4%B8%8B%E6%B8%B8%E4%BB%BB%E5%8A%A1%E7%A0%94%E7%A9%B6/</guid><description>&lt;p>将图像、视频和音频输入语言模型，使其具备视觉、听觉和推理能力——这件事在 2021 年 CLIP 出现之前还只是研究奇观，如今已成为产品标配。但将多模态大模型（Multimodal LLM, MLLM）应用于生产时，难点不在于视觉编码器是否足够强大，而在于以下四个常被低估的方面：&lt;/p></description></item></channel></rss>