<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Inference on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/inference/</link><description>Recent content in Inference on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Tue, 31 Mar 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/inference/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型工程（五）：推理优化核心技法</title><link>https://www.chenk.top/zh/llm-engineering/05-inference/</link><pubDate>Tue, 31 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/05-inference/</guid><description>&lt;p>真正的成本压力来自推理。以单个 70B 模型为例，支撑 1000 个并发用户、每秒生成 50 个 token 的 GPU 开销，约等于训练该模型的全部预算——只需运行约 3 个月。本章聚焦两个核心指标：首 token 延迟（TTFT）、token 间延迟（ITL），以及一个关键比率：每百万输出 token 消耗的 GPU 秒数。&lt;/p></description></item><item><title>阿里云 PAI（四）：EAS 部署与冷启动真相</title><link>https://www.chenk.top/zh/aliyun-pai/04-pai-eas-model-serving/</link><pubDate>Sun, 08 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/aliyun-pai/04-pai-eas-model-serving/</guid><description>&lt;p>钱主要花在 EAS 上：DSW 开发每月只需几百元，DLC 训练属于脉冲式消费，而 EAS 则是 24/7 持续计费——服务一旦进入 Running 状态，费用便持续产生。自动伸缩配置中的 &lt;code>min_replicas&lt;/code>（最小副本数）是整个平台最关键的杠杆。这篇文章汇总了我在部署首个生产端点前最希望掌握的关键信息。&lt;/p></description></item></channel></rss>