<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Speculative-Decoding on Chen Kai Blog</title><link>https://www.chenk.top/zh/tags/speculative-decoding/</link><description>Recent content in Speculative-Decoding on Chen Kai Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Tue, 31 Mar 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://www.chenk.top/zh/tags/speculative-decoding/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型工程（五）：推理优化核心技法</title><link>https://www.chenk.top/zh/llm-engineering/05-inference/</link><pubDate>Tue, 31 Mar 2026 09:00:00 +0000</pubDate><guid>https://www.chenk.top/zh/llm-engineering/05-inference/</guid><description>&lt;p>真正的成本压力来自推理。以单个 70B 模型为例，支撑 1000 个并发用户、每秒生成 50 个 token 的 GPU 开销，约等于训练该模型的全部预算——只需运行约 3 个月。本章聚焦两个核心指标：首 token 延迟（TTFT）、token 间延迟（ITL），以及一个关键比率：每百万输出 token 消耗的 GPU 秒数。&lt;/p></description></item></channel></rss>