Inference on Chen Kai Blog

大模型工程（五）：推理优化核心技法

Tue, 31 Mar 2026 09:00:00 +0000

真正的成本压力来自推理。以单个 70B 模型为例，支撑 1000 个并发用户、每秒生成 50 个 token 的 GPU 开销，约等于训练该模型的全部预算——只需运行约 3 个月。本章聚焦两个核心指标：首 token 延迟（TTFT）、token 间延迟（ITL），以及一个关键比率：每百万输出 token 消耗的 GPU 秒数。

阿里云 PAI（四）：EAS 部署与冷启动真相

Sun, 08 Mar 2026 09:00:00 +0000

钱主要花在 EAS 上：DSW 开发每月只需几百元，DLC 训练属于脉冲式消费，而 EAS 则是 24/7 持续计费——服务一旦进入 Running 状态，费用便持续产生。自动伸缩配置中的 min_replicas（最小副本数）是整个平台最关键的杠杆。这篇文章汇总了我在部署首个生产端点前最希望掌握的关键信息。