系列 · 云计算 · 第 1 篇

云计算(一):云计算基础与架构体系

工程视角的云计算入门 -- 服务模型(IaaS、PaaS、FaaS、SaaS)、部署拓扑、CapEx vs OpEx 的经济学、地域与可用区、厂商目录,以及配套真实架构案例的决策框架。

2025 年,每个开发软件的团队都会面临一个老问题:买服务器还是租服务器?只不过答案早已反转。二十年前,我们把硬件塞进机房;如今,只需用 YAML 描述所需资源,全球云厂商便能在几秒内将其部署到位,按秒计费,一旦停付就立即回收。云计算远不止是“别人的电脑”——它是一套可编程、可计量、支持多租户的计算、存储与网络抽象层,从根本上重塑了企业的构建方式和工程师的日常工作。

云计算(一):云计算基础与架构体系 — 章节概览图

作为本系列的第一篇,本文旨在夯实概念基础,因此节奏会放得较慢。读完后,你应能读懂云架构图,在厂商宣讲时提出关键问题,并基于成本、可靠性与锁定风险进行理性分析,而非依赖空洞口号。


你将学到什么#

  • 云决策所依赖的七个维度——为何“上云”从来不是一个单一选择
  • 从 IaaS 到 PaaS、FaaS 再到 SaaS 的服务模型,及其隐含的管理边界
  • 公有云、私有云、混合云与多云部署模式的成本与复杂度权衡
  • 在 36 个月周期内 CapEx 与 OpEx 的演变趋势,以及盈亏平衡点所在
  • 责任共担模型——为何大多数云安全事故源于客户配置错误
  • 地域(Region)与可用区(AZ)设计背后的延迟与故障半径逻辑
  • AWS、Azure、GCP 与阿里云的服务目录对比地图
  • 一套实用且经得起时间检验的服务选型框架

准备工作#

  • 对“服务器”“网络”和“操作系统”有基本认知
  • 熟悉至少一种编程语言并能使用命令行
  • 无需任何云计算经验

云计算到底是什么#

最广为引用的定义来自美国国家标准与技术研究院(NIST),其列出了五个核心特征。这些特征之所以关键,正是因为它们能明确排除那些“看似云实则非云”的系统。

  • 按需自助服务:开发者通过 API 或控制台直接申请资源,无需提交工单或拨打电话。
  • 广泛的网络访问:资源可通过标准网络协议,从各类异构客户端访问。
  • 资源池化:物理基础设施以多租户方式共享,用户无法也不必知晓其工作负载具体运行在哪台物理机上。
  • 快速弹性:容量可在数分钟内自动伸缩,对用户而言近乎无限。
  • 可计量服务:资源消耗以极细粒度计量并计费(如按秒、按请求、按 GB·月)。

传统数据中心若仅出租一个机柜,则至少缺失上述三项特征;而一款通过浏览器登录的 SaaS 应用通常满足全部五项。正是这一定义划清了云与非云的边界。

简史——理解今日设计决策的由来#

时代关键事件对今天的意义
1960s–1980s大型机与共享终端兴起,IBM CP/CMS 首次实现虚拟化多租户计算的思想源头
1990s客户端-服务器架构普及,本地服务器与关系型数据库崛起“前云时代”的典型场景;绝大多数遗留系统仍停留于此
2002–2006Salesforce 推出 SaaS;Amazon 相继发布 S3(2006 年 3 月)和 EC2(2006 年 8 月)首次允许外部开发者按小时租用计算资源
2008–2014Google App Engine(PaaS)、Heroku、OpenStack、Docker(2013)、Kubernetes(2014)更高层级的抽象出现,容器革命拉开序幕
2015–2020Lambda(2014)问世,Serverless 成为主流,超大规模云厂商年营收突破 500 亿美元按调用计费模式普及,运维层逐渐“消失”
2021–至今全球云支出年化规模超 3000 亿美元,AI 需求推动 GPU 基础设施第二轮扩张容量规划再度回归——这次围绕的是加速器

服务模型——管理边界在哪里#

可将云服务视为一个金字塔:层级越高,你需管理的内容越少,但控制力也随之下降。当前广泛采用的四层模型为 IaaS、PaaS、FaaS 和 SaaS。

云服务模型金字塔(IaaS / PaaS / FaaS / SaaS)

基础设施即服务(IaaS)#

你租用虚拟机、虚拟磁盘和虚拟网络。从操作系统往上的一切——包括内核补丁、运行时环境、应用程序和数据——均由你负责。

  • AWS EC2:提供 700 多种实例类型,涵盖通用型、内存优化型、计算优化型、存储优化型及 GPU 优化型
  • Google Compute Engine:支持持续使用折扣、抢占式实例及自定义规格虚拟机
  • Azure Virtual Machines:深度集成 Active Directory、.NET 与 Windows 授权体系
  • 阿里云 ECS:在中国大陆市场占据主导地位,并针对通义大模型推理任务优化了实例族

适用场景:迁移现有应用且不重写代码;需要特定操作系统或内核模块;或工作负载对性能极度敏感(如 HPC、GPU 训练、低延迟交易),无法承受 hypervisor 之上的任何抽象开销。

成本参考:一台 4 vCPU、16 GB 内存的实例,按需价格约为 0.20 美元/小时(约 150 美元/月);若采用 1 年预留实例,成本可降低 30%–50%;若使用 Spot 实例且能容忍中断,则可节省 60%–80%。

平台即服务(PaaS)#

你只需提交代码与配置,云厂商负责操作系统、运行时、负载均衡与自动扩缩容。你看到的是日志与指标,而非服务器本身。

  • Heroku:开创了 git push 即部署的体验
  • Google App Engine:可从零自动扩展至数千 QPS,全程无需人工干预
  • AWS Elastic Beanstalk:上传代码后,后台自动配置 EC2、ELB、ASG 与 CloudWatch
  • Vercel / Netlify:专为前端优化的 PaaS,特别适配 Next.js 等现代框架

适用场景:上线速度优先;团队规模小;应用形态标准(如 Web 应用、API 或后台任务);愿意接受运行时限制,以换取无需专人值守操作系统的便利。

函数即服务(FaaS)/ 无服务器#

你仅需提交一个函数,它按需执行,按调用次数与执行毫秒数计费。请求之间无常驻实例。

  • AWS Lambda:行业标杆,单次执行最长 15 分钟
  • Azure FunctionsGoogle Cloud Functions / Cloud Run:功能类似的竞品
  • 阿里云函数计算(FC)

适用场景:突发性或事件驱动型负载(如图片上传触发缩略图生成、Webhook 触发工作流);流量模式不可预测;或用于连接托管服务的胶水代码。
慎用场景:需要持久连接;要求冷启动低于 50 毫秒但不愿启用预置并发(Provisioned Concurrency);或长时间运行的计算任务——当稳态负载超过某一阈值后,单位经济性将急剧恶化。

软件即服务(SaaS)#

你直接使用应用,厂商掌控从芯片到软件的全部环节。

  • 典型示例:Gmail、Salesforce、Slack、Zoom、Microsoft 365、Notion、Figma、Datadog

适用场景:该应用属于业务中的通用能力(如邮件、CRM、视频会议、可观测性)。
避免场景:该应用构成你的核心竞争力——这恰恰是你应自行构建的部分。

一张图:管理边界#

维度IaaSPaaSFaaSSaaS
控制力低(按函数)仅配置
运维投入
上线速度较慢较快事件类极快最快
计费模式按小时按小时或请求按请求 + 按毫秒按席位
厂商绑定中–高
典型代表EC2、ECSHeroku、App EngineLambda、Cloud RunGmail、Salesforce

最清晰的判断法则:沿金字塔向上,管理边界不断上移;边界之下归厂商负责,边界之上由你承担。

部署模型——工作负载放在哪里#

服务模型决定“租什么”,部署模型则决定“放在谁的数据中心”以及“如何联网”。

公有云、私有云、混合云、多云对比

公有云#

由超大规模云厂商运营数据中心,你与陌生租户共享底层硬件,依靠加密与 hypervisor 实现隔离。最适合长尾工作负载:Web 应用、批处理任务、开发测试环境,以及初创公司几乎全部业务。

私有云#

由你(或托管服务商)为单一租户运营专用基础设施。适用于监管严格、延迟敏感或数据驻留要求高的场景:国防、特定医疗与金融业务,或工厂控制系统等对控制器响应时间要求在亚毫秒级的系统。

混合云#

公有云与私有云通过 VPN 或专线(如 AWS Direct Connect、Azure ExpressRoute、GCP Interconnect)连接,形成统一逻辑环境。经典模式是:敏感客户数据保留在本地,批处理分析与突发流量溢出至公有云。现实挑战在于:你现在必须维护两套工具链、两套安全策略和两套 on-call 轮值体系。

多云#

在生产环境中同时使用两家或以上公有云。动因包括:规避厂商锁定、利用各家最优服务(如 GCP 的 BigQuery、AWS 的 Bedrock),或满足客户强制要求。代价显著:身份管理、网络架构、可观测性与 CI/CD 均需实现云无关。

维度公有云私有云混合云多云
成本结构OpEx,低CapEx,高混合混合,更高
扩展能力几乎无限有限灵活极其灵活
控制程度中–低
复杂度极高
锁定风险单一厂商无(自主掌控)降低最低

经验法则:默认采用单地域公有云。当停机开始造成实质性损失时,再增加第二地域。仅在出现战略级原因——如监管强制、客户硬性要求,或主云确实缺乏某项关键服务——才考虑引入第二家云厂商。

市场格局及其集中化成因#

云计算是现代基础设施中集中度最高的市场之一。AWS、Microsoft Azure 与 Google Cloud 三大厂商合计占据全球 IaaS+PaaS 支出的约三分之二;阿里云在中国大陆遥遥领先;其余份额由区域性及垂直领域厂商瓜分。

全球云基础设施市场份额 – AWS / Azure / GCP / 阿里云

这种集中并非偶然。云基础设施属资本密集型行业,规模效应极为显著:每新增一个地域或可用区(AZ),即可吸引更广泛客户;每增加一项服务,又能与现有服务产生协同(如 S3 增强 EC2 粘性,IAM 则进一步加固两者)。中小厂商只能依靠低价、特定垂直领域(如游戏、科研计算)或区域优势参与竞争。

厂商市占率核心优势最佳适用场景
AWS~32%服务目录最全、历史最久、生态最庞大企业级应用、初创公司、全球化部署、多样化需求
Azure~23%深度集成 Microsoft 技术栈(AD/.NET)、混合云支持强微软生态企业、受监管行业、政府机构
GCP~10%数据与机器学习领先、K8s 原生、网络质量优异数据分析、AI/ML、容器原生架构
阿里云~4%中国本土覆盖深、亚太布局广、定价具竞争力中国大陆业务、亚太部署、成本敏感型场景
其他~30%OCI、IBM、腾讯云、华为云及区域性专家细分市场、区域性或垂直领域特定负载

经济学视角——CapEx 与 OpEx 的长期对比#

云的核心商业价值在于其成本曲线的形态:本地部署需提前批量采购容量,而云则按需按秒付费。

CapEx vs OpEx – 36 个月内的容量与需求曲线

两种效应叠加:

  1. 容量闲置:本地硬件按峰值配置,但平均利用率仅 15%–30%,大量资源长期闲置。
  2. 容量不足:当需求突增(如产品发布、营销活动或病毒传播),本地环境无法弹性扩展;而云可在数分钟内吸收峰值。

对于波动型负载(绝大多数场景均属此类),无论硬件折扣多高,云在原始成本上几乎总占优。但对于稳态高利用率负载(如 7×24 小时以 80%+ 利用率运行的视频转码集群,或稳定的内部数据库集群),三年期预留实例或私有云建设可能比按需云便宜 30%–50%。

隐性成本建模要点#

标价绝非最终账单。务必计入:

  • 出站流量(Egress):数据流出云平台需付费,跨区域传输同样计费
  • 跨可用区流量:多数厂商对此收费;若微服务间通信频繁,此项可能主导账单
  • 托管服务溢价:RDS 比在 EC2 自建 PostgreSQL 贵约 30%
  • 支持计划:Business 或 Enterprise 级别通常占月支出的 3%–10%
  • 人力成本:平台工程师、FinOps 分析师、安全工程师——“云团队”是真实人力投入

一份可靠的 TCO 模型应覆盖三年周期,包含本地硬件的更新周期与云的预留实例折扣,并将人力成本合理分摊至两边。

架构构建模块#

云远不止虚拟机。以下基础组件在任何成熟架构中反复出现。

虚拟化——底层基石#

Hypervisor 使多台虚拟机共享一台物理服务器。两类关键形态:

  • Type 1(裸金属型):VMware ESXi、KVM、Hyper-V、Xen——直接运行于硬件,所有公有云均采用此架构
  • Type 2(宿主型):VirtualBox、VMware Workstation——运行于主机操作系统之上,适用于开发测试

容器并非虚拟化的替代品,而是运行于虚拟机之上,共享主机 VM 的内核。典型 EKS 或 AKS Pod 的堆栈为:容器 → Linux VM → Hypervisor → 物理服务器。此部分将在第 2 篇(虚拟化)与第 7 篇(云原生)深入探讨。

特性虚拟机容器
隔离性完整客户操作系统共享内核;通过 namespace 与 cgroup 隔离
启动时间通常 30–90 秒通常 100 毫秒–2 秒
资源开销每实例 GB 级 RAM每容器数十 MB
适用场景混合 OS、遗留应用微服务、CI 工作节点、ML 训练

存储——按访问模式选型,而非名称#

类型示例访问协议最佳用途关键特性
对象存储S3、GCS、Azure Blob、OSSHTTP/REST备份、媒体、静态网站、数据湖落地11 个 9 持久性(99.999999999%)
块存储EBS、Azure Managed Disks、PDiSCSI/virtio数据库、高 IOPS 应用、系统盘io2/Hyperdisk 支持 80k+ IOPS
文件存储EFS、Azure Files、Filestore、NASNFS/SMB共享内容、遗留应用迁移支持多实例并发挂载
归档存储Glacier、Archive Blob、Coldline异步取回合规归档、长期备份每 TB·月仅数美分,取回需数小时

S3 风格的存储分级允许以取回延迟换取成本优化。典型策略:热数据存 Standard,30 天后转 Standard-IA,180 天后入 Glacier,一年后进深度归档——全程由生命周期策略自动驱动,无需人工干预。

网络——最容易踩坑的部分#

  • VPC(虚拟私有云):你在云中的隔离网络,含各 AZ 子网、路由表、安全组与 NACL
  • 负载均衡器:L4(NLB/TCP)追求吞吐量,L7(ALB/HTTP)支持按路径或 Header 路由
  • CDN:在边缘 POP 缓存静态(及日益增多的动态)内容,如 CloudFront、Cloud CDN、Azure CDN、Cloudflare
  • VPN/专线:IPSec 隧道成本低,专线延迟稳定(通常 <2ms,不走公网)

自动伸缩——弹性的核心引擎#

两个维度:

  • 横向伸缩(扩/缩):增减实例数量,云原生默认方式
  • 纵向伸缩(升/降配):调整实例规格,通常需重启,主要用于数据库等有状态负载

地域与可用区——故障域设计哲学#

地域(Region) 是地理区域(如 us-east-1、eu-west-1、ap-southeast-1、cn-hangzhou),彼此隔离,单地域故障不会扩散。每个地域包含多个可用区(AZ)——相距数公里的独立数据中心,拥有独立电源、冷却与网络,但通过亚毫秒级光纤互联。

地域、可用区与跨地域复制

设计逻辑如下:

  • 同地域多 AZ:成本低、实施易——副本跨 AZ 部署,负载均衡器自动故障转移,应用几乎无需改造
  • 跨地域:复杂度陡增——需长距离数据复制,面临最终一致性挑战,且依赖 DNS 或全局负载均衡实现故障切换
  • 边缘/POP:适用于内容分发与 DDoS 防护,不适用于有状态应用逻辑

务实建议:从第一天起就构建多 AZ 架构(边际成本极低);仅当一分钟宕机损失超过一个月复制带宽成本时,才考虑多地域架构

责任共担模型#

过去十年几乎所有公有云安全事故,皆源于客户配置错误——公开的 S3 存储桶、泄露的 IAM 密钥、过度宽松的安全组。责任共担模型正是为厘清此问题而设。

IaaS / PaaS / SaaS 三种模型下的责任共担

云厂商始终负责底层基础设施安全——包括物理访问、hypervisor 及数据中心间网络平面。不同服务模型的区别仅在于责任边界的位置

  • IaaS:客户负责 OS、中间件、应用、身份与数据;厂商负责 VM 及以下所有层
  • PaaS:OS 与中间件移交厂商;客户保留应用代码、身份与数据责任
  • SaaS:厂商承担几乎所有责任,客户仅需管理身份(谁能登录)与数据权限(能做什么)

两大实践启示:

  1. 身份管理永远是你的责任:多因素认证、最小权限、密钥轮换、JIT 访问——这些功能不会自动生效。
  2. 数据安全永远是你的责任:静态加密通常默认开启;传输加密需你强制实施;备份、保留策略与合规要求完全由你设计。

此主题将在第 5 篇(云安全与隐私保护)深入展开。

服务目录——读懂厂商菜单#

各大云厂商均提供数百项服务,但可归为少数家族。下图足以助你快速导航任意厂商目录。

云服务目录速查

浏览目录时的实用建议:

  • 名称会变,本质不变:厂商常更名或重组,但底层原语(计算、对象存储、托管 SQL)保持稳定
  • 三层同心圆结构
    • 核心层(计算、存储、网络、IAM、监控):成熟且各厂商差异小
    • 托管层(数据库、消息队列、容器编排):差异化体现在易用性与定价
    • 前沿层(AI、数据仓库、自研芯片):厂商争夺心智的主战场,也是锁定风险最高之处
  • 先查配额,再谈架构:每个账号均有软硬配额(vCPU 数、S3 桶数、API QPS),设计前务必确认

真实案例——架构在压力下的表现#

Netflix——行星尺度的流媒体#

Netflix 于 2016 年关闭最后一个数据中心,全面迁移至 AWS,并自建 Open Connect CDN 部署于 ISP 内部以分发视频。系统由数百微服务组成,配备 Chaos Monkey 等混沌工程工具链,实现多 AZ 与多地域容灾。成果:支撑 2 亿+ 用户,达成 99.99% 级可用性,并能轻松应对爆款剧集上线导致的周末流量翻倍。

Airbnb——从初创到全球平台#

2009 年,Airbnb 是运行于 AWS 单一区域的单体应用;至 2018 年,已演进为跨多区域的数百服务架构,数据层采用 Aurora 与 Vitess,东西向流量经 Service Mesh 处理,读路径依赖 ElastiCache(Redis)与 CloudFront。迁移采取渐进式——每次拆分一个有界上下文,历时多年而非一次性重写。成果:支撑数百万房源,平稳应对不可预测的季节性高峰。

Capital One——受监管企业的云转型#

Capital One 是首批全面拥抱公有云的美国银行(2015 年宣布,2020 年完成)。技术难点不在迁移本身,而在治理——需向 SOC、PCI-DSS 及银行业监管方证明,Terraform、Cloud Custodian 等代码化控制手段与物理控制同等可审计。成果:2020 年关闭全部 8 个遗留数据中心,基础设施成本降低 30%–40%,软件交付周期从季度级缩短至天级。(2019 年因 WAF 配置错误导致 SSRF 漏洞的事故,恰是客户侧责任共担的经典反面教材。)

Spotify——主动设计的多云架构#

Spotify 主要流媒体服务运行于 GCP,数据与 ML 平台深度依赖 BigQuery、Dataflow 与 Pub/Sub;AWS 则用于特定存储与计算任务。成果:每日处理 PB 级收听数据,驱动 Discover Weekly 与 Wrapped 功能,同时有意识地管控供应商集中风险。

一套经得起复盘的决策框架#

云上最难的不是技术选型,而是一年后仍能清晰解释当初为何如此选择。以下七维框架是我反复验证后最信赖的方法。

维度关键问题误判后果
负载形态稳态还是突发?CPU/内存/IO/GPU 密集型?实例族选错,账单翻倍
数据重力数据当前位置与规模?Egress 费用与迁移时间可能远超计算成本
延迟预算用户端到端延迟目标?决定区域数、边缘使用、多 AZ vs 多地域
合规要求是否需满足 HIPAA/GDPR/PCI 或区域数据主权?限制可选区域,甚至厂商
团队能力团队现有技术栈?“最佳”服务若团队无法运维,不如“够用”服务
三年 TCO含出站流量、支持费、人力成本的总拥有成本?18 个月时账单可能带来“惊喜”
锁定容忍度三年后迁移该服务的成本?前沿服务虽好,但离开时代价高昂

经得起时间考验的最佳实践#

  • 小步快跑,渐进扩展:从非核心服务在单账号单区域起步
  • 为故障而设计:假设任何组件(含托管服务)随时可能失效;从第一天起采用多 AZ
  • 优先托管服务处理通用负载:无充分理由,勿自运维 PostgreSQL
  • 定期审视资源分配:多数集群超配 20%–40%;每周检查一次,收益远超成本
  • 全面加密:静态加密默认开启已成标配;传输层必须强制 TLS 1.2+
  • 基础设施即代码:使用 Terraform、Pulumi 或 CloudFormation,生产环境禁用手动操作
  • 可观测性先行:在流量涌入前,先部署日志、指标、追踪与告警

常见问题#

云一定比本地便宜吗?
不一定。对波动负载与多数企业,云更具优势;但对超大规模、70%+ 利用率的稳态负载(如 Dropbox 曾将存储层迁出 AWS 节省数亿美元),自建可能更优。务必建模三年 TCO,含硬件更新、出站流量与人力成本。

云安全吗?
底层基础设施比绝大多数企业自建更安全;但应用与配置的安全性完全取决于你。责任共担模型是分界线,多数安全事故发生在客户侧。

厂商宕机怎么办?
宕机不可避免,需提前设计应对方案:

  • 多 AZ:低成本应对常见故障(单 AZ 失效)
  • 多地域:高成本应对罕见故障(整地域失效)
  • 多云:极高成本应对极罕见故障(全厂商失效)
    投入应匹配真实风险偏好,而非被新闻标题裹挟。

该先学哪些技能?
建议路径:

  1. 考取一家厂商的基础认证(如 AWS Cloud Practitioner、Azure Fundamentals、GCP ACE)
  2. 掌握 Linux 基础、网络原理、基础设施即代码(Terraform)
  3. 学习容器技术(Docker、Kubernetes)
    厂商特定知识迁移成本远低于普遍认知。

学 AWS、Azure 还是 GCP?
优先选择雇主或目标雇主所用平台。三者概念相通,切换仅需数周而非数年:

  • AWS:就业市场最广
  • Azure:企业 IT 领域主导
  • GCP:数据与机器学习领域优势明显

总结#

概念核心要点
服务模型IaaS(控制权)→ PaaS(托管运行时)→ FaaS(按调用计费)→ SaaS(直接使用)
部署模型默认公有云;监管需求选私有云;遗留系统过渡用混合云;真正有战略意义才考虑多云
经济学OpEx 灵活匹配需求;CapEx 闲置浪费、高峰期又不足;TCO 需看三年总成本
责任共担厂商负责底层基础设施安全,你负责身份、数据和配置安全
地域与 AZ一开始就用多 AZ;宕机损失大于复制成本时再扩展到多地域
厂商AWS(覆盖广)、Azure(企业级/微软生态)、GCP(数据/ML)、阿里云(中国/APAC)
选型先看负载形态、数据重力、延迟要求、合规性、团队能力,再算 TCO 和锁定风险——按此顺序

本系列后续文章将逐层深入上述主题。下一篇将聚焦虚拟化——支撑整个云计算大厦的 hypervisor 技术,从 KVM 内部机制到驱动 Lambda 的轻量级虚拟机 Firecracker。

本系列

云计算 8 篇

  1. 01 云计算(一):云计算基础与架构体系 当前
  2. 02 云计算(二):虚拟化技术深度解析
  3. 03 云计算(三):云原生与容器技术
  4. 04 云计算(四):云存储系统与分布式架构
  5. 05 云计算(五):云网络架构与 SDN
  6. 06 云计算(六):云安全与隐私保护
  7. 07 云计算(七):运维与 DevOps 实践
  8. 08 云计算(八):多云管理与混合云架构

读有所得?

GitHub 关注我 → 新文周更

GitHub