标签

Speculative-Decoding

Mar 31, 2026 大模型工程 40 分钟

大模型工程(五):推理优化核心技法

KV cache 力学、paged attention、continuous batching、speculative decoding、INT8/INT4/AWQ/GPTQ 量化,以及 vLLM、SGLang、TensorRT-LLM 的取舍。