Series · Cloud Computing · Chapter 8

多云管理与混合云架构

系列收官。多云 vs 混合云战略、 6R 迁移框架、混合云网络、跨云数据同步与冲突解决、厂商锁定规避、 RPO/RTO 灾备规划、 FinOps 成本优化,以及决定未来十年的趋势。

本系列第一篇问的是:"到底是什么,为什么重要?" 八篇之后,问题成熟为更实际的版本:用哪些云?怎么组合?怎么把这套组合运营得不抓狂? 多云与混合云就是严肃组织对这个问题的回答。它们把工作负载分布在多个云服务商和自建基础设施上,换取韧性、成本优化、战略弹性——但也引入了一类单云架构永远不会遇到的问题。

本系列收官篇覆盖跨多云运行的战略、技术、运营三个维度。我们从"何时每种模式真正合理"(不是永远合理)讲起,走过实践者真正在用的迁移框架,深入跨云工作所必需的网络与数据管道,最后落到成本纪律、锁定规避,以及决定未来十年走向的趋势——边缘、 FinOps 、主权云、可持续发展。文章末尾,连同系列收尾,是对全部八篇内容的综合贯通。

你将学到

  • 多云、混合云、主权云:定义、驱动力、各自适用场景
  • 6R 迁移框架,以及如何真正把它落地
  • 混合云网络:VPN 、 Direct Connect / ExpressRoute 、 SD-WAN 的带宽、延迟、成本权衡
  • 跨云数据同步:同步、异步、 CDC ;冲突解决策略
  • 多云管理平台:Anthos 、 Rancher 、 OpenShift 、 Crossplane
  • 厂商锁定的五个维度,以及对每个维度的具体应对
  • 能撑过审计的灾备模式和 RPO/RTO 规划
  • FinOps 成本优化:预留实例、 Spot 、 right-sizing 、 egress 陷阱
  • 未来趋势:边缘、 Serverless 可移植、主权、可持续
  • 全 8 篇云计算系列的收官综合

前置知识

  • 至少一个云服务商的扎实理解
  • 熟悉 Kubernetes 与 IaC (Terraform)
  • 推荐先读本系列前 7 篇

多云、混合、主权:三种模式,三种动因

“多云"这个词被用得很松。它底下其实是三种不同的模式,分别由不同的业务压力驱动。

模式定义主要驱动
多云多个公有云(AWS + Azure + GCP)规避锁定、最佳服务、谈判筹码
混合云公有云 + 自建/私有云监管约束、延迟敏感的遗留系统、已沉没的资本支出
主权云在特定司法辖区下运营的云区数据主权、监管隔离(如欧盟 GAIA-X 、中国政务云)
混合多云上述全部组合最大弹性,也是最大运维表面积

多云何时真正合理

多云很时髦。它也很贵:每多一个云就多一套 IAM 、网络、计费、监控、安全和团队技能要维护。真正合理的驱动只有这几个

  • 规模化的风险缓解。 主云出现多区故障会把你打垮。当宕机成本超过多云溢价时,账才算得过来。
  • 最佳服务(Best-of-breed)。 GCP 的 ML/数仓(BigQuery 、 Vertex),AWS 的广度与生态,Azure 的微软生态(AD 、 M365 集成)。当生产力差距是真实的,付集成税值得。
  • 合规与数据主权。 GDPR 、印度 DPDP 、中国 PIPL 以及无数行业特定法规规定数据可以放在哪。多云有时是同时满足所有要求的唯一办法。
  • 谈判筹码。 “可信的迁移威胁"让供应商保持诚实。一个纯 AWS 客户对 AWS 定价没有任何筹码。
  • 并购现实。 你收购了一家用别的云的公司。你想不多云都不行。

不算好驱动的:“为了云无关而云无关”。 把所有东西都做成最低公分母,等于把当初选择某个云的差异化全扔了。绝大多数成功的多云策略是按工作负载分配,而不是让所有应用都可移植。

架构模式

多云架构

上图展示典型多云架构:全局流量管理器(GSLB / Anycast DNS / 多 CDN)把用户路由到最优区域后端;每朵云跑自己最擅长的工作负载;身份与可观测性两层贯穿全部。

模式描述何时用
按工作负载分配不同应用放不同云(分析在 GCP ,边缘在 AWS)最常见、最务实
Active-Active同一应用在多云同时服务真正的高可用 + 锁定规避;同步复杂
Active-Passive 灾备主在云 A ,备在云 B成本更低,恢复更慢
地理分布AWS 美 、 Azure 欧 、 GCP 亚延迟优化、数据驻留
Cloud Bursting自建打底,云上扛峰可预测基线 + 不可预测峰值

常见错误是过早伸手要 Active-Active 。它是远比其他模式贵的方案——双倍容量付费,再加上跨云数据同步、冲突解决、双重运营的工程成本。Active-Passive 灾备 + 季度切换演练,能用零头成本换到大部分韧性。

6R 迁移框架

任何一个迁移到云(或在云间迁移)的工作负载,都走 6R 中的一条路。Gartner 的 6R 框架是迁移团队用来分类与规划的通用语言:

策略含义速度风险云原生价值
Rehost(lift and shift)同样的虚机、新基础设施极小——你拿到的是可靠性,不是优化
Replatform(lift and tinker)适度改造(托管 DB 、容器化)低-中中等——有意义的运维收益
Repurchase(drop and shop)换成 SaaS高——前提是 SaaS 真的合身
Refactor(重构)重写为云原生最大——也是最大风险
Retire(退役)下线N/A —— 最好的迁移是不必做的迁移
Retain(保留)暂时留在自建N/AN/A —— 不是所有东西都需要搬

怎么真正落地

团队常犯的错是把 6R 当成辩论。它是分类作业。 对每个应用:

  1. 盘点。 编目每个应用、技术栈、依赖、真实使用情况。AWS Application Discovery Service 或 Azure Migrate 这类工具可以帮上忙。
  2. 分类。 套 6R 。绝大多数应用落到 Rehost 或 Retire ;少数值得 Refactor 。
  3. 优先级。 两个轴:迁移的业务价值 vs 迁移风险。从高价值、低风险的象限开始。
  4. 分波次执行。 每波次 5-15 个应用。验证、复盘、调整 playbook ,再做下一波。
  5. 迁完再优化。 Right-sizing 和预留容量是在你拿到稳定流量模式之后做的——通常迁完 60-90 天。

最重要的规则:迁移计划是一个假设。计划在第一波之后就修订它。

混合云网络:选对那根管子

自建(或一朵云)到另一朵云的连接,是任何混合架构的承重件。这一层做错了,下游一切都很痛。

混合云连接

选项带宽延迟上线时间月成本何时
Site-to-Site VPN受互联网限制(实际约 1 Gbps)高、易抖(20-50 ms)分钟开发、测试、低流量生产
Direct Connect / ExpressRoute / Interconnect1 / 10 / 100 Gbps低、稳定(1-5 ms)周(拉物理光纤)流量稳定的生产
SD-WAN overlay互联网 + 私有混合路由优化多站点、多云、动态策略
Transit Gateway / vWAN / NCCHub-and-Spoke 拓扑多 VPC/站点的连通需求

网络拓扑模式

  • Hub-and-Spoke – 中心 transit hub 连接所有站点和云。路由更简单、防火墙集中,代价是潜在瓶颈。绝大多数企业的默认。
  • 全 Mesh – 任意站点之间直连。延迟最优,管理复杂度指数级增长。只对小数量站点可行。
  • 混合 Mesh – 延迟敏感的流量走直连(DC <-> 主云),其他走 hub-and-spoke 。两者最佳;运维上的金标准。

管子上的安全

无论选哪根管子,上面的安全都是不可妥协的

  • 加密一切 – VPN 用 IPsec ,Direct Connect 用 MACsec (是的,“私有"线路也要),应用层用 TLS 。
  • 联邦身份 – Azure AD / Okta / Google Workload Identity Federation ,跨云的单一可信源。按云分隔的身份孤岛是泄露的高发地。
  • 微分段 – 把每朵云、每个自建环境当作独立信任域;之间默认拒绝,已知流向显式放行。
  • 集中 SIEM – 把每个环境的日志推到一个地方。碎片化日志意味着攻击者可以在你的眼皮下横向移动。

跨云数据同步

数据是多云最难的部分。算力可移植,数据有引力。

跨云数据同步

同步模式与权衡

模式一致性复杂度RPO适用
同步复制0金融交易、零数据丢失容忍
异步复制(主从)最终(延迟 = 秒级)读扩展、可容忍少量丢失的灾备
多主(Multi-Master)最终 + 冲突极高0(写入)全球写入、用户分布广的系统
变更数据捕获(CDC)最终(基于流)秒-分钟分析管道、事件驱动架构
快照复制陈旧(快照年龄)小时冷灾备、备份

关键洞见:按表选,而不是按系统选。 关键写入(订单、支付)走同步;用户活动日志走 CDC + 异步;静态参考数据靠快照同步。一刀切的"所有数据同步复制"既贵又慢。

冲突解决

多主复制不可避免地带来冲突。三种策略,每种都有真实代价:

  • Last-Write-Wins (LWW)。 简单、确定,写入重叠时静默丢数据。可以接受丢的场景(缓存、最近浏览列表)能用。对订单是错的。
  • 向量时钟 / CRDT 。 精确检测因果关系。对有合并语义的数据结构(计数器、集合、 LWW Map)可以确定性地解决冲突。实现成本是真实的—— DynamoDB 、 Cassandra 、 Riak 提供原语,但应用设计必须配合
  • 应用层合并。 自定义业务逻辑决定。最有表现力、最贵、最易出错。 当业务规则(“最近的收货地址赢;最近的账单邮箱赢”)无法被通用合并表达时使用。

跨云数据治理

  • 分类数据按敏感度(PII 、 PHI 、金融、公开)和适用法规。
  • 生命周期策略一致跨云——如果"用户请求 30 天内必须删除”,那这条策略要在 AWS S3 、 GCS 、 Azure Blob 、自建存储上都存在,且能拿出审计证据
  • 季度做一次备份与恢复测试,跨云边界的那种。从未被恢复过的备份是一厢情愿。
  • 审计日志集中。 云原生审计(CloudTrail 、 Cloud Audit Logs 、 Azure Monitor)发到中央 SIEM ,保留期超出每朵云原生提供的。

多云管理平台

工作负载横跨多云之后,运维问题变成:用每朵云的原生工具(接受认知开销),还是用统一平台?

平台类型优势适用
Rancher开源跨云与自建的统一 K8s 管理容器优先、注重成本
OpenShift企业版(红帽)集成 DevOps 、 RHEL 栈、合规友好受监管行业、 RHEL 用户
Anthos托管(Google)GCP 服务部署到任何地方、 GKE-anywhereGCP 为中心的组织
Crossplane开源通过 K8s API 供给任意云资源构建 IDP 的平台团队
Terraform / OpenTofuIaC跨主流云的声明式供给通用——事实上的通用语言

成熟多云组织收敛到的务实组合:Terraform/OpenTofu 做供给,Kubernetes(每朵云一份,常用 Cluster API )做运行时,ArgoCD 做交付,OpenTelemetry + Prometheus + Grafana 做可观测性。这套可移植、每朵云都支持、技能可迁移。

厂商锁定:五个维度,五种应对

厂商锁定规避

“避免厂商锁定"是一句空话,除���你把它拆开。锁定至少有五个维度,每个都有具体应对:

维度表现应对
数据私有格式、贵的 egress标准格式(Parquet 、 Avro 、 OpenAPI);定期导出测试;它处冷拷贝
API代码里满是私有 SDK抽象层(Crossplane 、 Terraform)、开放标准(用 Ceph/MinIO 提供 S3 API)
架构建在没有等价物的托管服务上Kubernetes 做算力、 Service Mesh 做网络、开放可观测性
技能团队只懂一朵云交叉培训、多云招聘、工程师轮换
合同多年承诺、没有出口谈判出口条款、缩短合同期、保留数据导出权

何时接受锁定,何时不接受

上面的雷达图显示了基线(重锁定)与可移植姿态(轻锁定)的差距。把每个维度都拉到可移植很贵。慎重选择

  • 接受锁定:当托管服务给出真正的竞争优势(BigQuery 跑临时 PB 级分析, DynamoDB 撑大规模毫秒级 KV),且收益明显超过未来切换的成本。
  • 缓解锁定:当工作负载原则上可移植(Web 应用、批处理),且使用可移植技术的边际成本低(用 RDS 上的标准 Postgres ,避开 Aurora 私有特性)。
  • 强避锁定:当监管环境、合同长度或战略风险要求"必须能离开的选项”——并且前期把额外工程成本算进预算

一个有用的测试题:“如果我们的主云明天把价格翻倍,我们 12 个月内可信的迁移路径是什么?”答不出来,就是锁得比你以为的更深。

灾备:超越"我有备份”

灾备是多云大部分价值兑现的地方——也是绝大多数计划在真演练时翻车的地方。

RPO 与 RTO :决定架构的两个数字

  • RPO (Recovery Point Objective) – 你能容忍丢多少数据,按时间计。RPO = 1 小时,意味着最多丢 1 小时的写入。
  • RTO (Recovery Time Objective) – 你能停多久。RTO = 4 小时,意味着 4 小时之内必须恢复。

这两个数字决定你的架构、成本、演练频率:

策略RTORPO成本现实适用
备份恢复小时-天内部工具、开发/测试
Pilot Light (最小服务在跑)小时分钟重要但非关键应用
Warm Standby (缩规模的全量环境)分钟-小时分钟面向客户、影响营收的
Active-Active (两边都全量)接近 0接近 0极高任务关键、强监管

多云灾备模式

  • 跨云灾备。 主在 AWS ,灾备在 Azure (或反过来)。消除相关性的供应商故障。 代价:跨云数据传输费、双套运维专长。
  • 地理灾备。 同云不同区,或不同云不同区。同云最便宜;不论哪种,都对区域性灾难有韧性。
  • 混合灾备。 云上生产,自建灾备(或反过来)。有自建沉没成本可复用时常见。

能撑过审计的灾备清单

  • 每个应用都定义了 RPO 与 RTO ,业务负责人签字
  • 复制方式与 RPO 匹配(同步 vs 异步 vs CDC vs 快照)
  • RTO 要求的地方实现自动切换(亚小时 RTO 不能靠人工)
  • 灾备端到端季度演练,包括 DNS 切换
  • Runbook 文档化、可从主环境之外访问、保持最新
  • 备份加密密钥与备份分开存储
  • 过去 90 天内真正做过至少一次恢复

最被低估的灾备失败:“备份在那里,但从来没人真的从里面恢复过”。 兼容性问题、缺失的 schema 、过期的凭证、缺失的 IAM 角色——全部只在恢复时刻才浮出水面。

跨云成本优化:FinOps 纪律

跨云成本优化

多云默认更贵。 把"多云更贵"翻成"规模化后多云更便宜"的纪律就是 FinOps :财务 + 工程 + 业务联合负责云支出。可以叠加的杠杆:

杠杆典型节省注意
Right-sizing20-40%需要真实利用率数据;过度供给是默认
预留实例 / Committed Use / Savings Plans30-70%1 或 3 年承诺;适合稳态基线
Spot / Preemptible / Low-priority VM60-90%工作负载必须能容忍中断(批处理、无状态 worker)
存储分层40-80% (在分层数据上)生命周期策略很关键;手动分层是维护负担
Egress 减少看工作负载隐形杀手——同地、压缩、激进用 CDN
闲置资源清理5-15%无标签的孤儿在堆积;需要清扫进程

Egress 陷阱

跨云、跨区 egress 是每个多云团队都会被惊到的账单项。AWS egress 大约 0.08-0.12 美元/GB ;Azure 与 GCP 类似。对一个每月跨云传 10 TB 的工作负载,光是传输费就约 1000 美元/月——常常比这数据喂的算力还贵。

应对:

  • 同地放数据与算力。 数据在哪里就在哪里处理,只把结果送出去。
  • 用私有互联 – AWS Direct Connect 经 colo 接到 Azure ExpressRoute ,或者第三方织物(Equinix 、 Megaport),传输费可降到约 0.02 美元/GB 。
  • 压缩与批量化。 一个朴素 REST API 移动的字节量是 gRPC + protobuf 的 5 倍。
  • 读多用 CDN 。 Egress 到 CDN 边缘一次,N 次从缓存出。

FinOps 运营模型

成熟的 FinOps 循环按月跑:

  1. 可见性 – 跨云的统一成本面板(CloudHealth 、 Cloudability 、 Vantage 、 Apptio ,或自己拿云 API + 数仓搭一个)。
  2. 归属 – 每一块钱都打了团队/产品/客户标签。无标签支出是大家的,也是没人的。
  3. 优化 – 工程团队拥有自己的账单,且有动手减低的跑道。
  4. 预测 – 下季度支出带置信区间;意外是 FinOps 的失败。

决定未来十年的趋势

云行业变化快。看起来真正持久、不只是炒作的趋势:

边缘计算

算力放到网络边缘、靠近数据源和用户。驱动:5G 、 IoT 、 AR/VR 、实时推理。平台:AWS Wavelength 、 Azure Edge Zones 、 GCP Distributed Cloud Edge 、 Cloudflare Workers 、 Fastly Compute 。真正难的不是运行时——是把成千上万个分布式位置当作一支舰队来管理。

Serverless 与 Wasm 可移植性

FaaS (Lambda 、 Cloud Functions 、 Azure Functions)成熟但被锁定。WebAssembly (Wasm)正在改变这一点:跨云服务商、边缘平台甚至浏览器一致运行的可移植字节码。Spin 、 Wasmtime 、 Cloudflare Workers 的 Wasm 运行时指向一个 Serverless 真正可移植的未来。值得追踪。

主权云与区域云

欧洲的 GAIA-X 、法国/德国/印度的主权云区、中国独特的云市场——背后全是监管与地缘政治。架构含义:为每个数据集规划数据驻留,而不只是计算区域。

FinOps 成为一种职业

云支出已大到 FinOps 基金会作为一门带认证、框架与专职团队的学科出现。五年前 FinOps 是平台工程的副业;今天它是独立角色。

可持续与碳感知计算

云服务商发布碳面板(AWS 客户碳足迹工具、 GCP Carbon Footprint 、 Azure Sustainability Calculator)。碳感知调度器(Google CCS 、开源 Carbon Aware SDK)把批处理工作负载移到电网更绿的时间和地区。在很多司法辖区,这正从"锦上添花"变成"可持续报告强制要求”。

机密计算走向主流

AMD SEV-SNP 、 Intel TDX 、 AWS Nitro Enclaves 、 Azure Confidential VMs 、 GCP Confidential VMs ——都已可用。“数据使用中也加密、不只是静态和传输中"的承诺终于在生产中可行。几年内会成为敏感工作负载的基线期待。

案例:真实组织怎么把这些拼起来

全球银行(混合多云)

交易系统留在自建(亚毫秒级延迟要求)。面客应用放 AWS (弹性)。灾备用 Azure 作为独立供应商。身份用 Okta 联邦。成本用 CloudHealth 跟踪。结果:相比全自建基础设施成本下降 35% , 99.99% 可用性,在 14 个司法辖区完全合规。

全球电商(按工作负载多云)

AWS 主力(无状态 Web 层生态成熟)。GCP 跑分析、 ML 训练、 BigQuery 跑产品分析。CloudFront + Cloudflare 全球 CDN 。跨云数据移动最小化:BigQuery 每日一次从 S3 导入,不是持续的。结果:黑五 10 倍峰值无人工介入扛过、欧洲延迟下降 40% 、 TCO 比单云方案低 25% 。

医疗服务(混合 + 主权)

患者记录在 HIPAA 合规的自建(监管+合同)。远程医疗在 AWS GovCloud 。ML 推理在边缘(远程诊所)。国际子公司地理隔离(欧洲患者数据在法兰克福,从不跨境)。结果:HIPAA + GDPR 全合规、 5 倍用户增长无基础设施手忙脚乱、相比全自建基线成本下降 30% 。

系列收官综合:八层如何串联

八篇文章,一根主线穿起来:云是分层的,每一层都做了一个有意识的取舍。

编号取舍
1基础资本支出 vs 运营支出;控制 vs 便利
2虚拟化隔离强度 vs 密度与启动速度
3存储一致性 vs 可用性 vs 分区容忍(CAP)
4网络 / SDN软件灵活性 vs 硬件性能
5安全与隐私防御纵深 vs 运维摩擦
6运维与 DevOps自动化投入 vs 手工控制
7云原生与容器独立性 vs 分布式系统复杂度
8多云与混合可移植性 vs 差异化、韧性 vs 成本

反复出现的教训:好架构是命名取舍,而不是否认它存在。 一个说"我们要最大可移植性最大云原生服务最低成本"的团队没有做出决策;他们写了一份愿望清单。真正能交付的团队,是选定取舍空间里的一个角,用业务术语论证它,然后执行。

第二个教训,更难赢得:运维成熟度会复利。 把无聊的事情做扎实的团队—— IaC 、可观测性、 on-call 轮值、事后复盘、容量规划、成本纪律——最终拥有做更大架构动作的自由。跳过这些的团队会陷在救火里,永远跳不出来。

你的多云之旅战略清单

战略:

  • 业务目标明确(韧性、成本、合规、筹码——选哪个?)
  • 多云溢价被领导层接受(贵在前,省在后
  • 工作负载分类完成(哪些应用去哪儿,为什么)

架构:

  • 模式选定(按工作负载 / Active-Passive / Active-Active)
  • 灾备策略:每个应用的 RPO/RTO 已定
  • 数据同步模式按数据集选定(同步、异步、 CDC 、快照)
  • 厂商锁定按维度的应对显式化(数据、 API 、架构、技能、合同)

实现:

  • IaC (Terraform / OpenTofu)覆盖每朵云的每个资源
  • 身份在所有环境之间联邦
  • 网络连接已建立,带宽/延迟匹配需求
  • 安全策略跨云一致(CIS 基线、默认拒绝)
  • 可观测性统一(OpenTelemetry 、中央 SIEM)

运营:

  • 成本跟踪统一,归属标签强制执行
  • FinOps 循环按月跑,工程团队负责
  • 灾备季度演练,端到端,包含切换与回切
  • Runbook 保持最新,存在主环境之外
  • 团队对每朵在跑的云都有培训,不只一朵

持续改进:

  • 季度架构回顾,对照业务目标
  • 年度可移植性测试(我们真的能离开云 A 吗?)
  • 跟踪新兴趋势(边缘、 Wasm 、主权、可持续)

系列导航

编号主题
1基础与架构
2虚拟化技术深入
3存储系统与分布式架构
4网络架构与 SDN
5安全与隐私保护
6运维与 DevOps 实践
7云原生与容器技术
8多云管理与混合云架构(你在这)

到此,云计算系列收官。从第一篇的问题——云是什么、为什么重要——经过虚拟化、存储、网络、安全、运维、云原生,到现在的多云战略,八篇文章铺开了现代基础设施如何被构建、运营、演化的全景。

技术会继续变。下一个十年会再次重塑这个景观——边缘成为一等公民、 Wasm 可移植性成熟、主权云重塑数据流、可持续成为硬约束、 AI 工作负载带来新的架构压力。而原则——诚实地命名取舍、把纪律自动化、在每一层留松耦合、把故障当成默认条件来规划——会比任何具体工具活得更久。

继续学,继续建,继续质疑。谢谢一路读到这里。

Liked this piece?

Follow on GitHub for the next one — usually one a week.

GitHub