Series · Aliyun PAI · Chapter 5

阿里云 PAI 实战(五):Designer vs Model Gallery——GUI 什么时候真值钱

PAI-Designer 处理表格 ML 流水线,Model Gallery 一键部署/微调开源模型。一份诚实的决策矩阵:什么时候跳过 SDK、让 GUI 帮你交付。

前四篇讲的是底层原语——DSW、DLC、EAS——你用 Python 编排它们。这篇讲两个把这些原语包起来、给"不想写 Python"的用户用的 GUI 产品:PAI-Designer 处理拖拽式表格流水线,Model Gallery 零代码部署/微调开源模型。它们不是严肃工程师第一反应的工具,但有两个具体场景下它们就是正确答案。

Designer——拖拽式流水线编辑器

按文档原话,Designer “通过工作流的方式来实现建模与模型调试,用户可根据建模需求在工作流中通过拖拉拽的方式排布不同组件,像搭积木一样构建 AI 开发流程”。卖点数据:140+ 内置算法组件、可导出为 JSON、可在 DataWorks 调度、节点可用自定义 SQL / Python / PyAlink 脚本。

PAI-Designer 画布

它的强项:

  • MaxCompute 规模的表格 ML。 Designer 和 MaxCompute 绑得很紧。如果你的训练数据是 2 亿行的 MaxCompute 分区表,Designer 内置的 source / split / encode / train 组件直接在 MaxCompute 里跑,不是隔着网走 Python pod。你付的是 MaxCompute 的算力钱,不是闲着等数据的 GPU pod。
  • 交给非开发同学。 推荐、流失、风控团队里常有"懂业务但不写 Python"的领域专家。Designer 画布是他们能看懂、能改、能 own 的。
  • 内置案例。 文档里列了商品推荐、新闻分类、金融风控、雾霾天气预测、心脏病预测、农业贷款、人口普查。直接当起步模板用,哪怕拆掉一半再换。
  • 离线调度。 工作流导出 JSON,扔给 DataWorks,配上每日/每小时定时和重试。

它的弱项:

  • 任何 LLM 形态的事。Designer 强在特征工程 + 经典 ML,不是你写自定义 PyTorch 训练循环的地方。
  • 自研 CUDA、新损失函数、“算法本身就是产品"的事。

我表格类工作量用 Designer 出,定制训练用 DLC 出,分得很清楚。

Model Gallery——零代码 MaaS 捷径

Model Gallery 是把 DLC + EAS 包起来给非 MLOps 用户用的工具,让他们能 6 次点击微调和部署一个开源模型。文档原话:“Model Gallery encapsulates Platform for AI (PAI)-DLC and PAI-EAS, providing a zero-code solution to efficiently deploy and train open-source large language models”。

Model Gallery 流水线

Quick Start 里 Qwen3-0.6B 的端到端流程:

  1. Model Gallery 搜 “Qwen3-0.6B” → 点 部署
  2. 默认 GPU、默认 vLLM 镜像,所有都默认 → 确定
  3. ~5 分钟后状态翻到 Running
  4. 查看调用信息 → 拿 Internet Endpoint 和 token。
  5. 接到 Cherry Studio(或 Claude Code MCP,或 Python SDK 用 OpenAI-compatible base URL),开始聊。

微调方面,Quick Start 走了一个物流信息抽取的例子:喂 JSON 数据集,下拉框选 LoRA 超参,它替你提一个 DLC 任务。Quick Start 特意点出了蒸馏模式——大教师(Qwen3-235B)打标,小学生(Qwen3-0.6B)学。这模式值得记住,是我知道的最高性价比微调路径。

Gallery 的强项:

  • 10 分钟评估新模型。 DeepSeek-V3 出的那天,我团队从听说到部署到聊天,刚好咖啡续完。如果还要自己配 OSS 桶、安全组、SSL,绝无可能。
  • 给非工程同学演示。 点 → 端点 → Cherry Studio 聊天 → 董事会汇报。
  • 一键 LoRA 微调。 多数领域适配,Gallery 选的默认值(LR、epochs、LoRA rank)和最优值差不到 5%。

Gallery 的弱项:

  • 自定义架构。改了模型代码,必须 DSW + DLC。
  • 严苛延迟目标。Gallery 给你的部署默认值是合理的,不是优化的。要 <100ms p99 得自己写 EAS 部署,配好 batching。
  • 离网或跨区部署。Gallery 假设"在哪个区就部署在哪个区”。

什么时候选什么

到目前还能站住的决策矩阵:

决策矩阵

启发式:从需求允许的最高层往下选。多数团队第一天过度工程——本应是 Model Gallery 部署的事,搞成自定义 DLC + EAS 流水线。先优化首字时延,等真有流量真有数据再下沉重构。

一个 Designer 干掉自定义代码的真实例子

真实工单:营销部要每周对 6000 万行的 MaxCompute 表跑用户分群。算法同学的第一反应是 PySpark + scikit-learn 的 DLC 任务,代码放 OSS,SLS 回调到 EventBridge 调度。三天工作量。

Designer 版本:source 节点 → 抽样 → 编码 → KMeans → 写回 MaxCompute。导出 JSON 在 DataWorks 调度。两小时,包括跟营销 PM 解释清楚这玩意。同样的输出表,成本一半(无 GPU pod),维护量十分之一。

我们要测 Qwen3-Coder 是不是能替代某个内部基于 qwen-plus 的代码评审 bot。Gallery 之前:读 vLLM 文档、搭 EAS 部署、写 OpenAI-compatible 桥、交付给团队。Gallery 之后:搜 → 部署 → 端点接进现有客户端 → 午饭前完工。我们能集中精力在真正问题(这模型有没有更好)上,而不是管线上。

系列总结

到这里五篇结束。回顾一下:

  • 第一篇 — PAI 是什么、各部分如何拼起来。
  • 第二篇 — DSW 做研发。
  • 第三篇 — DLC 做训练。
  • 第四篇 — EAS 做生产推理。
  • 第五篇 — Designer / Model Gallery 在 GUI 是对的场景。

姐妹系列阿里云百炼讲 DashScope、Qwen、万相、Qwen-TTS——也是托管 MaaS 层,下面坐的还是 PAI-EAS 的基础设施。多数团队两个都用:要自己跑模型、自己控 GPU 时用 PAI;要拿别人模型、用 API key 时用百炼。按你需要控什么选,不是按哪个写在简历上更显眼。

Liked this piece?

Follow on GitHub for the next one — usually one a week.

GitHub