大模型工程 on Chen Kai Blog

大模型工程（十二）：生产落地与监控

Tue, 07 Apr 2026 09:00:00 +0000

这是最后一章。前面的章节涵盖了模型构建、提示工程、检索和评估，而本章聚焦于如何在不烧钱的前提下维持系统稳定运行。生产环境中的 LLM 服务更像一个高流量 Web 服务，而非传统机器学习服务——每次请求都会产生成本，且响应时间甚至可能长达两分钟。

大模型工程（十一）：安全与 Alignment

Mon, 06 Apr 2026 09:00:00 +0000

安全是 LLM 工程中信噪比最低的话题：哲学讨论泛滥、营销话术盛行，而真正可落地的工程细节却十分稀缺。本章只讲工程细节——RLHF 名义上强调“安全”，实际优化目标是什么？拒绝校准为何失效？真实的红队测试长什么样？哪些幻觉评估指标能切实预测对客户的影响？此外，2024–2026 年间的一些不起眼但至关重要的论文（如 Sleeper Agents、refusal as a feature direction、weak-to-strong generalization）将重塑你对生产环境中对齐实践的理解。

大模型工程（十）：LLM-as-Judge 与评估

Sun, 05 Apr 2026 09:00:00 +0000

评估是大模型技术栈中争议最多、信心最弱的一环——榜单被刷分、公开基准遭污染，我参与过的多数团队甚至在初期连自己的评估集都没有。本章将聚焦五个关键问题：评估真正能揭示什么、基准暗藏的陷阱、无人修复的 LLM-as-judge 偏差、多数团队忽略的校准指标，以及能在客户感知前捕获回归的生产级评估模式。

大模型工程（九）：生产级 Prompt 工程

Sat, 04 Apr 2026 09:00:00 +0000

在本地笔记本上跑通 100 个测试样例的 prompt，上线后仍可能有 10% 的输入失败——这与模型是否“聪明”无关。本章将聚焦于 prompt 的工程化实践：探讨 CoT 在哪些任务上有效、哪些无效；prompt caching 如何重塑成本结构；few-shot、CoT 和 self-consistency 如何协同增效，而非各自承担全量开销；以及如何防御上线首周就可能出现的 jailbreak 和注入攻击。

大模型工程（八）：RAG 架构与落地

Fri, 03 Apr 2026 09:00:00 +0000

RAG 是当前 LLM 应用中部署最广泛，却工程实践最不成熟的范式。2024 年流行的 Demo 套路——用 text-embedding-3-large 把所有内容向量化，扔进 pgvector，再取 cosine 相似度 top-5——在千篇量级文档和对答案容错率较高的演示场景下尚可应付；但一旦面对十万级真实业务文档，且客户对答案准确性有严格要求时，这套方案便难以为继。本章内容，正是我希望更多团队在构建第二代 RAG 系统前就能掌握的关键认知。

大模型工程（七）：Function Calling 实战

Thu, 02 Apr 2026 09:00:00 +0000

函数调用是大语言模型（LLM）连接外部世界的关键接口，也是 chat template、结构化输出内核与提示工程的交汇点。本章将深入剖析底层机制，探讨哪些行为具备可依赖的确定性保证，以及哪些 agent-loop 模式能在真实生产负载下稳定运行。

大模型工程（六）：长上下文与 RoPE、YaRN

Wed, 01 Apr 2026 09:00:00 +0000

“1M token 上下文”堪称大模型领域最被夸大的指标之一。模型能处理 1M tokens，这反映的是架构能力；但能否真正利用第 80 万位的信息来回答问题，则考验的是行为能力——后者要难得多。本章将深入探讨位置编码的数学原理、将上下文扩展至训练长度之外的工程技巧，并解释为何大多数长上下文模型在“大海捞针”测试中表现不佳。

大模型工程（五）：推理优化核心技法

Tue, 31 Mar 2026 09:00:00 +0000

真正的成本压力来自推理。以单个 70B 模型为例，支撑 1000 个并发用户、每秒生成 50 个 token 的 GPU 开销，约等于训练该模型的全部预算——只需运行约 3 个月。本章聚焦两个核心指标：首 token 延迟（TTFT）、token 间延迟（ITL），以及一个关键比率：每百万输出 token 消耗的 GPU 秒数。

大模型工程（四）：SFT、DPO 与 RLHF

Mon, 30 Mar 2026 09:00:00 +0000

预训练得到的基座模型只能续写文本，而听懂指令、拒绝有害请求、维持人设等能力，则属于后训练阶段的任务——这也正是论文宣称的效果与真正生产级模型之间差距最大的地方。本章将深入探讨各类后训练算法究竟在优化什么、为什么大多数奖励模型其实存在隐性缺陷，以及到 2026 年真正行之有效的实践方法。

大模型工程（三）：预训练的规模之道

Sun, 29 Mar 2026 09:00:00 +0000

预训练是大模型能力的源头，也是榜单成绩与实际表现差距最大的地方。大多数公开的训练记录更像是工程奇迹，而非科学成果。本章将聚焦于当你不是 OpenAI 时，预训练中真正必须做对的关键环节：数据、并行策略，以及那些只有在集群规模足够大时才会暴露的故障模式——比如一次失败的 NCCL all-reduce 就可能让为期 30 天的训练任务功亏一篑。

大模型工程（二）：Tokenization 深度解析

Sat, 28 Mar 2026 09:00:00 +0000

分词层常被忽视，却是在生产环境中我调试最多的地方——静默的质量下降、异常的成本激增、模型无法正确执行指令（通常源于 chat template 格式错误）。我希望在发布多语言产品前彻底掌握这一章的内容。

大模型工程（一）：Transformer 到 MoE

Fri, 27 Mar 2026 09:00:00 +0000

2017 年提出的 Transformer 模块，到 2026 年依然是所有生产级大语言模型（LLM）的骨架，但其内部组件几乎已被全面替换、稀疏化或专业化。本系列将端到端覆盖现代 LLM 技术栈——架构、训练、推理、检索增强、评估、安全与部署。第一章聚焦模块本身：2026 年注意力机制的实际形态、MoE 如何打破参数量与计算量（FLOPs）的绑定关系，以及 Mamba、RWKV 等非注意力架构在哪些场景下真正优于 Transformer。