LLM on Chen Kai Blog

阿里云全栈实战（十）：DashScope 与大模型层

Thu, 07 May 2026 09:00:00 +0000

早年在国内开发生产级 LLM 应用时，可选方案极少且成本高昂：国际大厂要么未在中国内地部署服务端点（endpoint），要么计费需绑定境外信用卡；若调用其美国 API，首 token 延迟普遍超过 800ms。后来 Qwen 接入 DashScope 并提供 OpenAI 兼容接口，国内开发 AI 产品的体验因此与海外接轨——SDK 一样，请求结构一样，流式协议也一样，只需改个 base_url，再从百炼控制台拿个 Key 就行。该方案已在生产环境稳定运行一年以上。本文系统梳理了我初上手时最急需的实战经验。

大模型工程（十二）：生产落地与监控

Tue, 07 Apr 2026 09:00:00 +0000

这是最后一章。前面的章节涵盖了模型构建、提示工程、检索和评估，而本章聚焦于如何在不烧钱的前提下维持系统稳定运行。生产环境中的 LLM 服务更像一个高流量 Web 服务，而非传统机器学习服务——每次请求都会产生成本，且响应时间甚至可能长达两分钟。

大模型工程（十一）：安全与 Alignment

Mon, 06 Apr 2026 09:00:00 +0000

安全是 LLM 工程中信噪比最低的话题：哲学讨论泛滥、营销话术盛行，而真正可落地的工程细节却十分稀缺。本章只讲工程细节——RLHF 名义上强调“安全”，实际优化目标是什么？拒绝校准为何失效？真实的红队测试长什么样？哪些幻觉评估指标能切实预测对客户的影响？此外，2024–2026 年间的一些不起眼但至关重要的论文（如 Sleeper Agents、refusal as a feature direction、weak-to-strong generalization）将重塑你对生产环境中对齐实践的理解。

大模型工程（十）：LLM-as-Judge 与评估

Sun, 05 Apr 2026 09:00:00 +0000

评估是大模型技术栈中争议最多、信心最弱的一环——榜单被刷分、公开基准遭污染，我参与过的多数团队甚至在初期连自己的评估集都没有。本章将聚焦五个关键问题：评估真正能揭示什么、基准暗藏的陷阱、无人修复的 LLM-as-judge 偏差、多数团队忽略的校准指标，以及能在客户感知前捕获回归的生产级评估模式。

大模型工程（九）：生产级 Prompt 工程

Sat, 04 Apr 2026 09:00:00 +0000

在本地笔记本上跑通 100 个测试样例的 prompt，上线后仍可能有 10% 的输入失败——这与模型是否“聪明”无关。本章将聚焦于 prompt 的工程化实践：探讨 CoT 在哪些任务上有效、哪些无效；prompt caching 如何重塑成本结构；few-shot、CoT 和 self-consistency 如何协同增效，而非各自承担全量开销；以及如何防御上线首周就可能出现的 jailbreak 和注入攻击。

大模型工程（八）：RAG 架构与落地

Fri, 03 Apr 2026 09:00:00 +0000

RAG 是当前 LLM 应用中部署最广泛，却工程实践最不成熟的范式。2024 年流行的 Demo 套路——用 text-embedding-3-large 把所有内容向量化，扔进 pgvector，再取 cosine 相似度 top-5——在千篇量级文档和对答案容错率较高的演示场景下尚可应付；但一旦面对十万级真实业务文档，且客户对答案准确性有严格要求时，这套方案便难以为继。本章内容，正是我希望更多团队在构建第二代 RAG 系统前就能掌握的关键认知。

大模型工程（七）：Function Calling 实战

Thu, 02 Apr 2026 09:00:00 +0000

函数调用是大语言模型（LLM）连接外部世界的关键接口，也是 chat template、结构化输出内核与提示工程的交汇点。本章将深入剖析底层机制，探讨哪些行为具备可依赖的确定性保证，以及哪些 agent-loop 模式能在真实生产负载下稳定运行。

大模型工程（六）：长上下文与 RoPE、YaRN

Wed, 01 Apr 2026 09:00:00 +0000

“1M token 上下文”堪称大模型领域最被夸大的指标之一。模型能处理 1M tokens，这反映的是架构能力；但能否真正利用第 80 万位的信息来回答问题，则考验的是行为能力——后者要难得多。本章将深入探讨位置编码的数学原理、将上下文扩展至训练长度之外的工程技巧，并解释为何大多数长上下文模型在“大海捞针”测试中表现不佳。

大模型工程（五）：推理优化核心技法

Tue, 31 Mar 2026 09:00:00 +0000

真正的成本压力来自推理。以单个 70B 模型为例，支撑 1000 个并发用户、每秒生成 50 个 token 的 GPU 开销，约等于训练该模型的全部预算——只需运行约 3 个月。本章聚焦两个核心指标：首 token 延迟（TTFT）、token 间延迟（ITL），以及一个关键比率：每百万输出 token 消耗的 GPU 秒数。

大模型工程（四）：SFT、DPO 与 RLHF

Mon, 30 Mar 2026 09:00:00 +0000

预训练得到的基座模型只能续写文本，而听懂指令、拒绝有害请求、维持人设等能力，则属于后训练阶段的任务——这也正是论文宣称的效果与真正生产级模型之间差距最大的地方。本章将深入探讨各类后训练算法究竟在优化什么、为什么大多数奖励模型其实存在隐性缺陷，以及到 2026 年真正行之有效的实践方法。

大模型工程（三）：预训练的规模之道

Sun, 29 Mar 2026 09:00:00 +0000

预训练是大模型能力的源头，也是榜单成绩与实际表现差距最大的地方。大多数公开的训练记录更像是工程奇迹，而非科学成果。本章将聚焦于当你不是 OpenAI 时，预训练中真正必须做对的关键环节：数据、并行策略，以及那些只有在集群规模足够大时才会暴露的故障模式——比如一次失败的 NCCL all-reduce 就可能让为期 30 天的训练任务功亏一篑。

大模型工程（二）：Tokenization 深度解析

Sat, 28 Mar 2026 09:00:00 +0000

分词层常被忽视，却是在生产环境中我调试最多的地方——静默的质量下降、异常的成本激增、模型无法正确执行指令（通常源于 chat template 格式错误）。我希望在发布多语言产品前彻底掌握这一章的内容。

大模型工程（一）：Transformer 到 MoE

Fri, 27 Mar 2026 09:00:00 +0000

2017 年提出的 Transformer 模块，到 2026 年依然是所有生产级大语言模型（LLM）的骨架，但其内部组件几乎已被全面替换、稀疏化或专业化。本系列将端到端覆盖现代 LLM 技术栈——架构、训练、推理、检索增强、评估、安全与部署。第一章聚焦模块本身：2026 年注意力机制的实际形态、MoE 如何打破参数量与计算量（FLOPs）的绑定关系，以及 Mamba、RWKV 等非注意力架构在哪些场景下真正优于 Transformer。

Terraform 实战（六）：LLM Gateway 与密钥管理

Sun, 22 Mar 2026 09:00:00 +0000

我在许多尚未成熟的 Agent 架构中反复看到一个通病：每个 Agent 都在自己的 .env 文件里存一份 OPENAI_API_KEY。有时是同一个 key，有时各不相同，甚至还有同事在原型阶段留下的个人密钥。等到账单来了，没人说得清哪个 Agent 消耗了多少 token；而一旦密钥泄露（这几乎是必然的），你就得像打地鼠一样，在十几个 .env 文件里来回折腾。

阿里云 PAI（三）：DLC 分布式训练

Sat, 07 Mar 2026 09:00:00 +0000

DSW 笔记本适合单人单卡的场景；一旦你需要八张 GPU 跨两个节点训练，或者训练时长超过八小时（也就是你愿意为一个浏览器标签页持续守候的极限），就该切换到 DLC。DLC 是 PAI 面向托管 Kubernetes 集群的作业提交入口：你只需声明需求（镜像、命令、资源规格、数据挂载路径），它就会自动调度 Pod、运行至完成、持久化日志并返回结果。官方文档称其为 Deep Learning Containers，但我们日常交流中统一简称为“DLC 任务”。

阿里云百炼（二）：Qwen API 生产接入

Thu, 26 Feb 2026 09:00:00 +0000

这个系列的干货集中在本篇。尽管其他模型有趣，我在生产环境中几乎只用 Qwen——尽管官方文档详尽但庞杂，本文将为你提炼出一条最短、最省、最稳的落地路径。

阿里云百炼（一）：平台概览与第一个请求

Wed, 25 Feb 2026 09:00:00 +0000

只要你的产品面向中文用户，迟早都得调用百炼（Bailian）的模型——Qwen-Max 是目前实现 GPT-4 级别中文理解能力且性价比最高的选择；万相（Wanxiang）是市面上唯一支持开具中文发票、且已在生产环境稳定落地的文本生成视频（text-to-video）API；而 Qwen-TTS-Flash 则是当前唯一能自然合成粤语和四川话、不带机械播报腔的语音合成（TTS）模型。在 AI 营销平台跑了一整年的生产流量后，我真心希望入职第一天就能拿到这份指南。

AI Agent 完全指南：从理论到工业实践

Mon, 19 Jan 2026 09:00:00 +0000

聊天机器人用于回答问题，而 Agent 则用于把事情做完——同样是基于大模型，前者仅输出文字，后者则会搜索、写代码、调用 API、查询数据库，并不断迭代直至任务完成；其区别在于外层的封装：一个能保留状态的循环、一组工具和一个能审视自身输出的批评者。

自然语言处理（十二）：前沿技术与实战应用

Tue, 25 Nov 2025 09:00:00 +0000

经过十一章的探索，我们从原始文本一路走到了多模态基础模型。作为第十二章和最后一章，这里既是技术的最前沿，也是实际应用的起点——研究不再是纸上谈兵的论文，而是真正落地为服务：一个能够调用工具、编写和调试代码、完成上百步推理、处理 20 万 token 的合同文件，并通过 FastAPI 接口以 p95 延迟低于 300 毫秒支持上千并发用户的大型语言模型（LLM）。

自然语言处理（十一）：多模态大模型

Thu, 20 Nov 2025 09:00:00 +0000

人类从来不会只通过单一感官来理解世界——我们看图表时会同时读标题，观察表情时会留意语气，讨论代码 bug 时也会瞥一眼截图。然而，纯文本语言模型对这些丰富的多模态信息完全无感，既“听不见”也“看不见”。多模态大语言模型（Multimodal Large Language Models, MLLMs） 的出现正是为了填补这一空白：它们将图像、音频和视频映射到与语言模型一致的表示空间中，从而让模型能够理解和处理多模态信息。

自然语言处理（十）：RAG 与知识增强系统

Sat, 15 Nov 2025 09:00:00 +0000

一个知识被冻结的语言模型就像一个“自信的骗子”：它读不了昨天的事故报告、公司的 Wiki 页面，也看不到今天早上刚发布的补丁说明。一旦你提问，它就会生成语法完美但事实错误的答案。检索增强生成（RAG） 打破了这一僵局，其核心在于将“记忆”与“推理”分离——让大语言模型（LLM）保持小巧稳定，而把易变的知识放进可随时更新的外部存储中。生成答案前，先检索相关证据，并将其作为条件输入模型。

自然语言处理（九）：大语言模型架构深度解析

Mon, 10 Nov 2025 09:00:00 +0000

2017 年的 Transformer 论文提出了一种模块，如今所有生产环境中的大语言模型（LLM）依然沿用其整体框架，但内部几乎所有组件都经历了彻底替换：后置归一化（post-norm）被前置归一化（pre-norm）取代，LayerNorm 被 RMSNorm 替换，GELU 激活函数变成了 SwiGLU，正弦位置编码也被旋转位置编码（RoPE）所替代。多头注意力机制（Multi-head Attention）演进为分组查询注意力（Grouped-Query Attention, GQA），稠密前馈网络（FFN）在某些模型中甚至被稀疏专家混合模型（Mixture of Experts, MoE）所取代；更重要的是，推理过程中最核心的数据结构——KV 缓存（KV Cache）——在原始论文中完全没有提及。

自然语言处理（八）：模型微调与 PEFT

Wed, 05 Nov 2025 09:00:00 +0000

2020 年，微调一个 70 亿参数的语言模型还是一项需要专门预算的工程：八张 A100 显卡、几天时间，外加一位懂得调试梯度检查点的工程师；而到了 2024 年，一名研究生用一台笔记本电脑就能完成。从这两个世界之间的鸿沟，几乎完全被两篇论文填平——胡等人（Hu et al.）在 ICLR 2022 提出的 LoRA，以及 Dettmers 等人在 NeurIPS 2023 发表的 QLoRA。

自然语言处理（七）：提示工程与 In-Context Learning

Fri, 31 Oct 2025 09:00:00 +0000

同一个模型，既可能给出精准而深刻的回答，也可能自信满满地‘一本正经胡说八道’。关键在于你如何引导它，而非模型的权重。简单输入‘分析这段文本’通常只能得到泛泛而谈的总结；但在提示中明确角色、提供清晰示例并规定严格输出格式，则更可能得到一个结构化的 JSON，直接供下游解析器使用。提示工程的核心是将这种从偶然到必然的差距转化为一套可重复、可操作的方法论。

提示词工程完全指南：从零基础到高级优化

Tue, 30 Sep 2025 09:00:00 +0000

同样的模型，两种问法在小学数学题上的准确率分别为 17% 和 78%——这种差别并非玄学，而是提示词工程的结果。本文将系统梳理那些真正有效的技巧及其原因，并探讨如何在生产环境中优化提示词。

LLM 工作流与应用架构：企业级实战指南

Thu, 31 Jul 2025 09:00:00 +0000

绝大多数 LLM 教程在真正有意思的工作开始之前就戛然而止了。它们教你如何调用 chat completion 接口、挂载向量库、用 Streamlit 包装成 demo——这些都没错，但解决不了真正的痛点：凌晨三点一万人涌入、每条回答都可能出幻觉时的系统性压力。

浅谈位置编码：从 Sinusoidal 到 RoPE 与 ALiBi

Fri, 30 Jun 2023 09:00:00 +0000

第一次手动计算 Self-Attention 时，多数人会惊讶地发现：它完全不依赖输入顺序。若将 token 序列重新排列，各注意力分数也会随之同步重排——该函数严格满足置换等变性。因此，在让 Transformer 完成需要理解序列顺序的任务之前，必须显式注入位置信息。

Integrating Large Language Models with Graphical Session-Based Recommendation

Sun, 22 Jan 2023 09:00:00 +0000

会话推荐（Session-based Recommendation, SBR）本质上是一个“短历史”问题：你只看到用户在一次会话中很短的一段点击序列（通常 3-20 次），就要预测下一个最可能点击的物品。难点在于工程现实——会话短、长尾多、冷启动多，仅依赖交互图（ID + 转移边）往往难以稳定训练：新物品几乎无交互边，长尾物品的边既稀疏又不可靠，用户随意点击还会引入噪声。

优化理论（三）：梯度下降族——从 SGD 到 AdamW

Fri, 16 Sep 2022 09:00:00 +0000

为什么“调学习率是一门艺术”成了 ResNet 的梗，而每篇现代 LLM 论文却只是简单写下 “AdamW, $\beta_1{=}0.9, \beta_2{=}0.95, \mathrm{wd}{=}0.1$ ” 就翻篇了？这并非偶然——这是 三十余年优化器演化的终点。

多模态大模型与下游任务研究

Sat, 09 Apr 2022 09:00:00 +0000

将图像、视频和音频输入语言模型，使其具备视觉、听觉和推理能力——这件事在 2021 年 CLIP 出现之前还只是研究奇观，如今已成为产品标配。但将多模态大模型（Multimodal LLM, MLLM）应用于生产时，难点不在于视觉编码器是否足够强大，而在于以下四个常被低估的方面：