阿里云 PAI 实战(一):平台总览与产品家族地图
基于官方文档梳理 2026 年阿里云 PAI 的四层服务架构、你真正会用到的五个子产品(DSW、DLC、EAS、Designer、Model Gallery),它们和 ECS、OSS 的关系,以及干净的账号/区域/工作空间初始化流程。
只要你的团队在阿里云上训练或者部署模型,迟早要进 PAI 控制台。PAI 是个伞形产品,下面挂着真正干活的几个子产品——一个 Notebook 服务、一个分布式训练服务、一个模型推理服务,外加几层 GUI/快速部署的封装。在某 AI Marketing 平台跑了一年半真实 LLM 业务之后,这个系列就是我希望第一次上线 EAS 之前有人塞给我的那本书。
第一篇是地理课,刻意不写代码,第二到第五篇才是深水区。这篇的目标是:当后面我说"DLC 任务"或者"EAS 端点"时,你脑子里立刻知道它属于哪一格。
PAI 是什么,又不是什么
按官方文档的原话,人工智能平台 PAI 是"阿里云面向 AI 全生命周期的开发平台,覆盖数据标注、模型开发、训练、部署"。pai.console.aliyun.com 是它的一个入口,但 PAI 本质上是一家族相关产品的集合,共享账号体系、OSS 存储底座和同一个 Python SDK。
我用得最顺的心智模型:
- PAI 是商场。
- DSW、DLC、EAS、Designer、Model Gallery 是商场里的工坊。
- ECS、OSS、NAS、CPFS 才是真正放硅片和字节的地方。PAI 帮你编排它们。
官方"服务架构"主题把这套架构画成了四层:

自下而上看。基础设施层是硅片——CPU、GPU、RDMA 高速网络、底下兜着 ACK Kubernetes。在它之上,灵骏(Lingjun)提供高密度 AI 算力,通用计算提供日常的 ECS 系 GPU 池。平台与工具层是你每天打交道的地方:PyTorch / Megatron / DeepSpeed,加上 PAI 自家的优化套件(TorchAcc / BladeLLM / EasyCkpt / AIMaster),加上你看得见的产品(DSW / DLC / EAS / Designer / FeatureStore / iTAG)。应用层是 PAI 和阿里 MaaS 生态的接口(ModelScope、百炼/DashScope、Model Studio)。最上面的业务层是 PPT 用的行业方案。
为什么不直接租 ECS?因为 PAI 替你预装了 CUDA / PyTorch 镜像、挂好了 OSS、配好了监控面板,并且按秒计费。
你真正会碰的五个子产品
在生产环境跑了一年半,我只为这五个掏过钱(直接对应官方"核心组件"表):
| 组件 | 文档原话 | 什么时候伸手 |
|---|---|---|
| DSW(交互式建模) | 云上 IDE,集成 Jupyter / VSCode / 终端,PyTorch 和 TensorFlow 镜像预置,支持 GPU | 交互式开发、调试、小规模训练 |
| DLC(深度学习容器) | 基于 K8s 的训练,支持 Megatron、DeepSpeed、PyTorch、TF、Slurm、Ray、MPI、XGBoost | 多卡 / 多机 SFT、预训练、大规模评测 |
| EAS(弹性算法服务) | 在线推理,自动扩缩容、灰度发布、流量切分、镜像 | 生产推理端点 |
| Designer(可视化建模) | 140+ 内置算法组件、拖拽式工作流、可导出 JSON、可在 DataWorks 调度 | 给非开发同学用的 ETL → 训练 → 评估流水线 |
| Model Gallery(快速开始) | 封装 DLC + EAS,对开源模型零代码部署 / 微调 | 10 分钟评估一个 Qwen / DeepSpeed / Llama |
另外还有 iTAG(数据标注)、PAI-Lingjun(超大集群)、PAI-Blade / BladeLLM(推理优化)、FeatureStore,但除非你做 >1000 卡预训练或者推荐系统,第一天可以忽略。
子产品和 ML 全生命周期天然对齐:

Designer 和 Model Gallery 是正交的——它们坐在上层,最终生成的还是 DLC / EAS 任务。
PAI 和 ECS、OSS 的关系
只要你是从纯云主机背景过来的,这块一定会被绊一下。三条铁律:
- PAI 永远不持有你的数据。 数据集、checkpoint、模型权重全部都在 OSS(要 POSIX 语义就用 NAS,要 HPC 吞吐就用 CPFS)。DSW 或 DLC 实例一死,没写到 OSS 的东西就没了。系统盘当
/tmp看就行。 - PAI 持有计算。 你不自己开 GPU ECS。PAI 维护资源池,你说"给我一台
ecs.gn7i-c8g1.2xlarge",按秒计费。 - PAI 共用你的账号但用自己的 RAM 角色。 给 PAI 授权访问 OSS,本质是挂上服务关联角色
AliyunPAIAccessingOSSRole,让 PAI 的算力不用长效 AK 就能读你的桶。这步千万别跳过——不然 DLC 任务会在data_loader阶段 403。
真实经验: 最常见的"PAI 坏了"工单全是 PAI 和 OSS 之间的权限问题。在调代码之前,先在 DSW 终端跑
oss ls oss://your-bucket/。失败就先修角色,不是改代码。
账号、区域、工作空间
按这个顺序准备三件事:
- 一个 aliyun.com 账号,做完实名认证——任何 GPU 资源都需要。国际站账号大部分区域可用,但杭州、上海、北京的 GPU 库存最稳。
- 一个区域。 选定一个就别换。PAI 资源、OSS、GPU ECS 都是区域内的,跨区流量贵又慢。国内生产我默认
cn-shanghai,国际默认ap-southeast-1(新加坡)。 - 一个工作空间。 文档原话:工作空间是 PAI 的租户原语——配额、数据集、模型注册、IAM 都在它里面。一般至少建两个:
dev工作空间给人开 DSW 玩,prod工作空间放 DLC 任务和 EAS 端点。跨工作空间授权略麻烦,但第一次有实习生不小心重启生产端点的时候,这个隔离就值回票价了。

两条路:控制台和 SDK
跟百炼一样,PAI 一切都有两条路。控制台适合查状态和一次性操作;SDK 是你写到 CI 里的东西。
Python SDK 一个包:
| |
“hello PAI”——列出你的工作空间:
| |
如果至少打出一个工作空间 ID,账号、区域、凭证全部对齐了,可以进第二篇。
真实经验: SDK 用子账号 + 收敛过的 RAM 策略,永远别用主账号 AK。一旦 AK 进了 git 历史,立刻轮换。阿里云的泄露检测还行,但不及 GitHub 那么快。
计费模型一段话讲完
文档列了五种计费方式:按量付费、包年包月、资源包(DSW 预付配额)、节省计划(承诺消费换折扣)、按推理时长付费(EAS Serverless,无空闲副本费)。DSW 按实例秒级计费,DLC 也是秒级、有 spot/抢占式队列大约便宜 30-50%(前提你能 checkpoint),EAS 按副本秒级 + 极低的请求百万次费、自动扩缩的最小副本数才是大头。Designer 和 Model Gallery 自己不收钱——它们调起的 DLC/EAS 资源正常计费。新账号有几百块的免费额度,跟完整套系列绰绰有余。
下一篇
第二篇 PAI-DSW 端到端:选实例规格、镜像目录、OSS-FUSE 挂载、跑通官方 Quick Start 里的 MNIST。第三篇 PAI-DLC 分布式训练——一个真实多卡任务,带 AIMaster 容错。第四篇 PAI-EAS 模型推理,包括坑过我好几次的冷启动陷阱。第五篇是 Designer vs Model Gallery 的诚实对比,讲清楚什么时候 GUI 是对的。
只读一篇就读第四篇——EAS 是花钱最多的地方,文档反而最薄。