RAG on Chen Kai Blog

阿里云全栈实战（九）：OpenSearch 与 AI 搜索

Wed, 06 May 2026 09:00:00 +0000

我做的第一个搜索引擎是用 Elasticsearch 搭建的，配了一堆同义词表。花了六个月才达到基本可用水平，随后陷入重复循环：用户反馈搜不到结果，就加同义词；结果引发其他查询误匹配，又得补例外规则，如此反复。相关性调优配置膨胀到 400 行，包括三种语言的自定义 analyzer 和高度复杂的 boosting 逻辑，早已超出可维护边界；重建索引则需耗时四小时。后来在一个侧边项目中尝试了混合向量和关键词搜索，首日效果即超越此前所有调优成果，首次实现用户零投诉的搜索体验。这一实践经历重塑了我对搜索系统设计的理解，催生了本文。

大模型工程（八）：RAG 架构与落地

Fri, 03 Apr 2026 09:00:00 +0000

RAG 是当前 LLM 应用中部署最广泛，却工程实践最不成熟的范式。2024 年流行的 Demo 套路——用 text-embedding-3-large 把所有内容向量化，扔进 pgvector，再取 cosine 相似度 top-5——在千篇量级文档和对答案容错率较高的演示场景下尚可应付；但一旦面对十万级真实业务文档，且客户对答案准确性有严格要求时，这套方案便难以为继。本章内容，正是我希望更多团队在构建第二代 RAG 系统前就能掌握的关键认知。

自然语言处理（十）：RAG 与知识增强系统

Sat, 15 Nov 2025 09:00:00 +0000

一个知识被冻结的语言模型就像一个“自信的骗子”：它读不了昨天的事故报告、公司的 Wiki 页面，也看不到今天早上刚发布的补丁说明。一旦你提问，它就会生成语法完美但事实错误的答案。检索增强生成（RAG） 打破了这一僵局，其核心在于将“记忆”与“推理”分离——让大语言模型（LLM）保持小巧稳定，而把易变的知识放进可随时更新的外部存储中。生成答案前，先检索相关证据，并将其作为条件输入模型。

LLM 工作流与应用架构：企业级实战指南

Thu, 31 Jul 2025 09:00:00 +0000

绝大多数 LLM 教程在真正有意思的工作开始之前就戛然而止了。它们教你如何调用 chat completion 接口、挂载向量库、用 Streamlit 包装成 demo——这些都没错，但解决不了真正的痛点：凌晨三点一万人涌入、每条回答都可能出幻觉时的系统性压力。