标签
Quantization
大模型工程(五):推理优化核心技法
KV cache 力学、paged attention、continuous batching、speculative decoding、INT8/INT4/AWQ/GPTQ 量化,以及 vLLM、SGLang、TensorRT-LLM 的取舍。
KV cache 力学、paged attention、continuous batching、speculative decoding、INT8/INT4/AWQ/GPTQ 量化,以及 vLLM、SGLang、TensorRT-LLM 的取舍。