Series

Terraform for AI Agents

Mar 26, 2026 Terraform Agents 7 min read

用 Terraform 给 AI Agent 上云(八):端到端——一次 apply 起整个 research-agent-stack

把七个 module 拼到一个仓库,跑一次 terraform apply,看一个完整的 Agent runtime——VPC、ECS、RDS、OpenSearch、OSS、LLM 网关、SLS 观测、成本告警——七分钟内起来。真实 apply 输出、module DAG、可 fork 的起手仓库。

Mar 24, 2026 Terraform Agents 7 min read

用 Terraform 给 AI Agent 上云(七):可观测、SLS 看板与成本告警

日志进 SLS、Trace 进 ARMS、指标进 CloudMonitor——全部用 HCL 配,新环境天生带观测。真实救过我项目的四条告警,加上 SLS 驱动的成本看板,发薪日之前告诉你哪个 Agent 在烧预算。

Mar 22, 2026 Terraform Agents 6 min read

用 Terraform 给 AI Agent 上云(六):LLM 网关与密钥管理

把所有 LLM 访问收敛到一个网关:按 Agent 限流、请求落 SLS 日志、KMS 之外不留密钥。Terraform 配 API Gateway + ECS 上自托管 LiteLLM,DashScope/OpenAI/Anthropic 的 key 通过 KMS Secrets Manager 自动轮转。

Mar 20, 2026 Terraform Agents 7 min read

用 Terraform 给 AI Agent 上云(五):存储层——向量、关系、对象记忆

Agent 有三种记忆,分别落到三个阿里云服务上:会话用 PolarDB/RDS,embedding 用 OpenSearch 向量版或 pgvector,产物用 OSS。每一层的真实 Terraform,加上让账单不暴涨的 lifecycle 和备份规则。

Mar 18, 2026 Terraform Agents 6 min read

用 Terraform 给 AI Agent 上云(四):计算层选 ECS、ACK 还是函数计算?

Agent 主循环在阿里云上有三个合理落点:长跑 ECS + pm2、ACK 上的 Kubernetes Pod、Function Compute 触发式调用。我用来选择的成本拐点模型,加一段真实的 cloud-init 脚本,从裸 Ubuntu 到 Agent 运行 90 秒搞定。

Mar 16, 2026 Terraform Agents 7 min read

用 Terraform 给 AI Agent 上云(三):可复用的 VPC 与安全基线

第一个可复用 module——三可用区 VPC,公私网交换机分层,NAT 出网,按 tier 分层的安全组,以及按数据域分的 KMS 主密钥。同样的代码出现在我交付过的每一个 Agent stack 里,参数化但本体不变。

Mar 14, 2026 Terraform Agents 8 min read

用 Terraform 给 AI Agent 上云(二):Provider、认证与 OSS 上的远程 State

钉死 alicloud provider 版本,在 AK/SK、AssumeRole、ECS RAM role 三种认证方式之间正确选择,把 tfstate 放到 OSS 并用 Tablestore 加锁,外加让 dev/staging/prod 不互相踩脚的 workspace 模式。再加上初学者第一天必踩的十几个坑。

Mar 12, 2026 Terraform Agents 7 min read

用 Terraform 给 AI Agent 上云(一):为什么 IaC 是唯一靠谱的部署方式

Agent 系统是个移动靶——每个月都有新工具、新记忆库、新区域。手动点控制台撑不到第二个同事入职。本系列第一篇讲为什么要在阿里云上用 Terraform,盘点 alicloud provider 真正覆盖了什么,并把它和 Pulumi、Crossplane、ROS 摆在一起对比,让你第一次就选对。