<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>RAG on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/rag/</link><description>Recent content in RAG on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Wed, 06 May 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/rag/index.xml" rel="self" type="application/rss+xml"/><item><title>阿里云全栈实战（九）：OpenSearch 与 AI 搜索</title><link>https://www.chenk.top/zh/aliyun-fullstack/09-opensearch/</link><pubDate>Wed, 06 May 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-fullstack/09-opensearch/</guid><description>&lt;p>我做的第一个搜索引擎是用 Elasticsearch 搭建的，配了一堆同义词表。花了六个月才达到基本可用水平，随后陷入重复循环：用户反馈搜不到结果，就加同义词；结果引发其他查询误匹配，又得补例外规则，如此反复。相关性调优配置膨胀到 400 行，包括三种语言的自定义 analyzer 和高度复杂的 boosting 逻辑，早已超出可维护边界；重建索引则需耗时四小时。后来在一个侧边项目中尝试了混合向量和关键词搜索，首日效果即超越此前所有调优成果，首次实现用户零投诉的搜索体验。这一实践经历重塑了我对搜索系统设计的理解，催生了本文。&lt;/p></description></item><item><title>大模型工程（八）：RAG 架构与落地</title><link>https://www.chenk.top/zh/llm-engineering/08-rag/</link><pubDate>Fri, 03 Apr 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/08-rag/</guid><description>&lt;p>RAG 是当前 LLM 应用中部署最广泛，却工程实践最不成熟的范式。2024 年流行的 Demo 套路——用 &lt;code>text-embedding-3-large&lt;/code> 把所有内容向量化，扔进 pgvector，再取 cosine 相似度 top-5——在千篇量级文档和对答案容错率较高的演示场景下尚可应付；但一旦面对十万级真实业务文档，且客户对答案准确性有严格要求时，这套方案便难以为继。本章内容，正是我希望更多团队在构建第二代 RAG 系统前就能掌握的关键认知。&lt;/p></description></item><item><title>自然语言处理（十）：RAG 与知识增强系统</title><link>https://www.chenk.top/zh/nlp/10-rag%E4%B8%8E%E7%9F%A5%E8%AF%86%E5%A2%9E%E5%BC%BA%E7%B3%BB%E7%BB%9F/</link><pubDate>Sat, 15 Nov 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/nlp/10-rag%E4%B8%8E%E7%9F%A5%E8%AF%86%E5%A2%9E%E5%BC%BA%E7%B3%BB%E7%BB%9F/</guid><description>&lt;p>一个知识被冻结的语言模型就像一个“自信的骗子”：它读不了昨天的事故报告、公司的 Wiki 页面，也看不到今天早上刚发布的补丁说明。一旦你提问，它就会生成语法完美但事实错误的答案。&lt;strong>检索增强生成（RAG）&lt;/strong> 打破了这一僵局，其核心在于将“记忆”与“推理”分离——让大语言模型（LLM）保持小巧稳定，而把易变的知识放进可随时更新的外部存储中。生成答案前，先检索相关证据，并将其作为条件输入模型。&lt;/p></description></item><item><title>LLM 工作流与应用架构：企业级实战指南</title><link>https://www.chenk.top/zh/standalone/llm%E5%B7%A5%E4%BD%9C%E6%B5%81%E4%B8%8E%E5%BA%94%E7%94%A8%E6%9E%B6%E6%9E%84-%E4%BC%81%E4%B8%9A%E7%BA%A7%E5%AE%9E%E6%88%98%E6%8C%87%E5%8D%97/</link><pubDate>Thu, 31 Jul 2025 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/standalone/llm%E5%B7%A5%E4%BD%9C%E6%B5%81%E4%B8%8E%E5%BA%94%E7%94%A8%E6%9E%B6%E6%9E%84-%E4%BC%81%E4%B8%9A%E7%BA%A7%E5%AE%9E%E6%88%98%E6%8C%87%E5%8D%97/</guid><description>&lt;p>绝大多数 LLM 教程在真正有意思的工作开始之前就戛然而止了。它们教你如何调用 chat completion 接口、挂载向量库、用 Streamlit 包装成 demo——这些都没错，但解决不了真正的痛点：凌晨三点一万人涌入、每条回答都可能出幻觉时的系统性压力。&lt;/p></description></item></channel></rss>