阿里云 PAI 实战（一）：平台总览与产品家族地图

只要你的团队在阿里云上训练或者部署模型，迟早要进 PAI 控制台。PAI 是个伞形产品，下面挂着真正干活的几个子产品——一个 Notebook 服务、一个分布式训练服务、一个模型推理服务，外加几层 GUI/快速部署的封装。在某 AI Marketing 平台跑了一年半真实 LLM 业务之后，这个系列就是我希望第一次上线 EAS 之前有人塞给我的那本书。

第一篇是地理课，刻意不写代码，第二到第五篇才是深水区。这篇的目标是：当后面我说"DLC 任务"或者"EAS 端点"时，你脑子里立刻知道它属于哪一格。

PAI 是什么，又不是什么

按官方文档的原话，人工智能平台 PAI 是"阿里云面向 AI 全生命周期的开发平台，覆盖数据标注、模型开发、训练、部署"。pai.console.aliyun.com 是它的一个入口，但 PAI 本质上是一家族相关产品的集合，共享账号体系、OSS 存储底座和同一个 Python SDK。

我用得最顺的心智模型：

PAI 是商场。
DSW、DLC、EAS、Designer、Model Gallery 是商场里的工坊。
ECS、OSS、NAS、CPFS 才是真正放硅片和字节的地方。PAI 帮你编排它们。

官方"服务架构"主题把这套架构画成了四层：

自下而上看。基础设施层是硅片——CPU、GPU、RDMA 高速网络、底下兜着 ACK Kubernetes。在它之上，灵骏（Lingjun）提供高密度 AI 算力，通用计算提供日常的 ECS 系 GPU 池。平台与工具层是你每天打交道的地方：PyTorch / Megatron / DeepSpeed，加上 PAI 自家的优化套件（TorchAcc / BladeLLM / EasyCkpt / AIMaster），加上你看得见的产品（DSW / DLC / EAS / Designer / FeatureStore / iTAG）。应用层是 PAI 和阿里 MaaS 生态的接口（ModelScope、百炼/DashScope、Model Studio）。最上面的业务层是 PPT 用的行业方案。

为什么不直接租 ECS？因为 PAI 替你预装了 CUDA / PyTorch 镜像、挂好了 OSS、配好了监控面板，并且按秒计费。

你真正会碰的五个子产品

在生产环境跑了一年半，我只为这五个掏过钱（直接对应官方"核心组件"表）：

组件	文档原话	什么时候伸手
DSW（交互式建模）	云上 IDE，集成 Jupyter / VSCode / 终端，PyTorch 和 TensorFlow 镜像预置，支持 GPU	交互式开发、调试、小规模训练
DLC（深度学习容器）	基于 K8s 的训练，支持 Megatron、DeepSpeed、PyTorch、TF、Slurm、Ray、MPI、XGBoost	多卡 / 多机 SFT、预训练、大规模评测
EAS（弹性算法服务）	在线推理，自动扩缩容、灰度发布、流量切分、镜像	生产推理端点
Designer（可视化建模）	140+ 内置算法组件、拖拽式工作流、可导出 JSON、可在 DataWorks 调度	给非开发同学用的 ETL → 训练 → 评估流水线
Model Gallery（快速开始）	封装 DLC + EAS，对开源模型零代码部署 / 微调	10 分钟评估一个 Qwen / DeepSpeed / Llama

另外还有 iTAG（数据标注）、PAI-Lingjun（超大集群）、PAI-Blade / BladeLLM（推理优化）、FeatureStore，但除非你做 >1000 卡预训练或者推荐系统，第一天可以忽略。

子产品和 ML 全生命周期天然对齐：

Designer 和 Model Gallery 是正交的——它们坐在上层，最终生成的还是 DLC / EAS 任务。

PAI 和 ECS、OSS 的关系

只要你是从纯云主机背景过来的，这块一定会被绊一下。三条铁律：

PAI 永远不持有你的数据。 数据集、checkpoint、模型权重全部都在 OSS（要 POSIX 语义就用 NAS，要 HPC 吞吐就用 CPFS）。DSW 或 DLC 实例一死，没写到 OSS 的东西就没了。系统盘当 /tmp 看就行。
PAI 持有计算。 你不自己开 GPU ECS。PAI 维护资源池，你说"给我一台 ecs.gn7i-c8g1.2xlarge"，按秒计费。
PAI 共用你的账号但用自己的 RAM 角色。 给 PAI 授权访问 OSS，本质是挂上服务关联角色 AliyunPAIAccessingOSSRole，让 PAI 的算力不用长效 AK 就能读你的桶。这步千万别跳过——不然 DLC 任务会在 data_loader 阶段 403。

真实经验： 最常见的"PAI 坏了"工单全是 PAI 和 OSS 之间的权限问题。在调代码之前，先在 DSW 终端跑 oss ls oss://your-bucket/。失败就先修角色，不是改代码。

账号、区域、工作空间

按这个顺序准备三件事：

一个 aliyun.com 账号，做完实名认证——任何 GPU 资源都需要。国际站账号大部分区域可用，但杭州、上海、北京的 GPU 库存最稳。
一个区域。 选定一个就别换。PAI 资源、OSS、GPU ECS 都是区域内的，跨区流量贵又慢。国内生产我默认 cn-shanghai，国际默认 ap-southeast-1（新加坡）。
一个工作空间。 文档原话：工作空间是 PAI 的租户原语——配额、数据集、模型注册、IAM 都在它里面。一般至少建两个：dev 工作空间给人开 DSW 玩，prod 工作空间放 DLC 任务和 EAS 端点。跨工作空间授权略麻烦，但第一次有实习生不小心重启生产端点的时候，这个隔离就值回票价了。

两条路：控制台和 SDK

跟百炼一样，PAI 一切都有两条路。控制台适合查状态和一次性操作；SDK 是你写到 CI 里的东西。

Python SDK 一个包：

1
pip install alibabacloud-pai-python-sdk

“hello PAI”——列出你的工作空间：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
import os
from pai.session import setup_default_session

sess = setup_default_session(
    access_key_id=os.environ["ALIBABA_CLOUD_ACCESS_KEY_ID"],
    access_key_secret=os.environ["ALIBABA_CLOUD_ACCESS_KEY_SECRET"],
    region_id="cn-shanghai",
)

for ws in sess.workspace_api.list().items:
    print(ws.id, ws.name)

如果至少打出一个工作空间 ID，账号、区域、凭证全部对齐了，可以进第二篇。

真实经验： SDK 用子账号 + 收敛过的 RAM 策略，永远别用主账号 AK。一旦 AK 进了 git 历史，立刻轮换。阿里云的泄露检测还行，但不及 GitHub 那么快。

计费模型一段话讲完

文档列了五种计费方式：按量付费、包年包月、资源包（DSW 预付配额）、节省计划（承诺消费换折扣）、按推理时长付费（EAS Serverless，无空闲副本费）。DSW 按实例秒级计费，DLC 也是秒级、有 spot/抢占式队列大约便宜 30-50%（前提你能 checkpoint），EAS 按副本秒级 + 极低的请求百万次费、自动扩缩的最小副本数才是大头。Designer 和 Model Gallery 自己不收钱——它们调起的 DLC/EAS 资源正常计费。新账号有几百块的免费额度，跟完整套系列绰绰有余。

第二篇 PAI-DSW 端到端：选实例规格、镜像目录、OSS-FUSE 挂载、跑通官方 Quick Start 里的 MNIST。第三篇 PAI-DLC 分布式训练——一个真实多卡任务，带 AIMaster 容错。第四篇 PAI-EAS 模型推理，包括坑过我好几次的冷启动陷阱。第五篇是 Designer vs Model Gallery 的诚实对比，讲清楚什么时候 GUI 是对的。

只读一篇就读第四篇——EAS 是花钱最多的地方，文档反而最薄。