标签

Inference

Mar 31, 2026 大模型工程 40 分钟

KV cache 力学、paged attention、continuous batching、speculative decoding、INT8/INT4/AWQ/GPTQ 量化，以及 vLLM、SGLang、TensorRT-LLM 的取舍。

Mar 8, 2026 阿里云 PAI 22 分钟

PAI-EAS 端到端：基于镜像 + OSS 挂权重的部署方式、三种推理模式、不让账单爆炸的扩缩容配置，以及用服务组做灰度发布。配上来自官方 Quick Start 的 vLLM Qwen3 完整部署示例。