用 Terraform 给 AI Agent 上云(八):端到端——一次 apply 起整个 research-agent-stack
把七个 module 拼到一个仓库,跑一次 terraform apply,看一个完整的 Agent runtime——VPC、ECS、RDS、OpenSearch、OSS、LLM 网关、SLS 观测、成本告警——七分钟内起来。真实 apply 输出、module DAG、 …
7 min read · 3072 wordsA long-form notebook on machine learning, mathematics, and the cloud infrastructure that runs them.

把七个 module 拼到一个仓库,跑一次 terraform apply,看一个完整的 Agent runtime——VPC、ECS、RDS、OpenSearch、OSS、LLM 网关、SLS 观测、成本告警——七分钟内起来。真实 apply 输出、module DAG、可 fork 的起手仓库。
Read the full piece →Each one is a single argument unfolded chapter by chapter.

Bailian model platform: prompt engineering, fine-tuning, agents, and evaluation.

Production-grade ML on Alibaba Cloud — DSW, DLC, EAS, Designer, QuickStart, end-to-end.

Infrastructure, networking, and the platforms ML actually runs on.

OS, networking, compilers — the substrate beneath everything.

Algorithms by pattern, with worked solutions.

The geometry and computation that underlies all of ML.
Recent essays and deep dives, freshest first.
把七个 module 拼到一个仓库,跑一次 terraform apply,看一个完整的 Agent runtime——VPC、ECS、RDS、OpenSearch、OSS、LLM 网关、SLS 观测、成本告警——七分钟内起来。真实 apply 输出、module DAG、 …
7 min read · 3072 words日志进 SLS、Trace 进 ARMS、指标进 CloudMonitor——全部用 HCL 配,新环境天生带观测。真实救过我项目的四条告警,加上 SLS 驱动的成本看板,发薪日之前告诉你哪个 Agent 在烧预算。
7 min read · 3467 words把所有 LLM 访问收敛到一个网关:按 Agent 限流、请求落 SLS 日志、KMS 之外不留密钥。Terraform 配 API Gateway + ECS 上自托管 LiteLLM,DashScope/OpenAI/Anthropic 的 key 通过 KMS …
6 min read · 2997 wordsAgent 有三种记忆,分别落到三个阿里云服务上:会话用 PolarDB/RDS,embedding 用 OpenSearch 向量版或 pgvector,产物用 OSS。每一层的真实 Terraform,加上让账单不暴涨的 lifecycle 和备份规则。
7 min read · 3011 wordsAgent 主循环在阿里云上有三个合理落点:长跑 ECS + pm2、ACK 上的 Kubernetes Pod、Function Compute 触发式调用。我用来选择的成本拐点模型,加一段真实的 cloud-init 脚本,从裸 Ubuntu 到 Agent 运行 90 秒搞 …
6 min read · 2909 words第一个可复用 module——三可用区 VPC,公私网交换机分层,NAT 出网,按 tier 分层的安全组,以及按数据域分的 KMS 主密钥。同样的代码出现在我交付过的每一个 Agent stack 里,参数化但本体不变。
7 min read · 3094 words钉死 alicloud provider 版本,在 AK/SK、AssumeRole、ECS RAM role 三种认证方式之间正确选择,把 tfstate 放到 OSS 并用 Tablestore 加锁,外加让 dev/staging/prod 不互相踩脚的 workspace …
8 min read · 3616 wordsAgent 系统是个移动靶——每个月都有新工具、新记忆库、新区域。手动点控制台撑不到第二个同事入职。本系列第一篇讲为什么要在阿里云上用 Terraform,盘点 alicloud provider 真正覆盖了什么,并把它和 Pulumi、Crossplane、ROS 摆在一起对 …
7 min read · 3451 wordsPAI-Designer 处理表格 ML 流水线,Model Gallery 一键部署/微调开源模型。一份诚实的决策矩阵:什么时候跳过 SDK、让 GUI 帮你交付。
4 min read · 1903 words