大模型工程（八）：RAG 架构与落地

Fri, 03 Apr 2026 09:00:00 +0000

RAG 是当前 LLM 应用中部署最广泛，却工程实践最不成熟的范式。2024 年流行的 Demo 套路——用 text-embedding-3-large 把所有内容向量化，扔进 pgvector，再取 cosine 相似度 top-5——在千篇量级文档和对答案容错率较高的演示场景下尚可应付；但一旦面对十万级真实业务文档，且客户对答案准确性有严格要求时，这套方案便难以为继。本章内容，正是我希望更多团队在构建第二代 RAG 系统前就能掌握的关键认知。

Embeddings on Chen Kai Blog

大模型工程（八）：RAG 架构与落地

推荐系统（三）—— 深度学习基础模型