大模型工程（五）：推理优化核心技法

Tue, 31 Mar 2026 09:00:00 +0000

真正的成本压力来自推理。以单个 70B 模型为例，支撑 1000 个并发用户、每秒生成 50 个 token 的 GPU 开销，约等于训练该模型的全部预算——只需运行约 3 个月。本章聚焦两个核心指标：首 token 延迟（TTFT）、token 间延迟（ITL），以及一个关键比率：每百万输出 token 消耗的 GPU 秒数。

Speculative-Decoding on Chen Kai Blog

大模型工程（五）：推理优化核心技法