标签
Inference
大模型工程(五):推理优化核心技法
KV cache 力学、paged attention、continuous batching、speculative decoding、INT8/INT4/AWQ/GPTQ 量化,以及 vLLM、SGLang、TensorRT-LLM 的取舍。
阿里云 PAI(四):EAS 部署与冷启动真相
PAI-EAS 端到端:基于镜像 + OSS 挂权重的部署方式、三种推理模式、不让账单爆炸的扩缩容配置,以及用服务组做灰度发布。配上来自官方 Quick Start 的 vLLM Qwen3 完整部署示例。

