计算机基础:主板、显卡与扩展

看懂主板布局、理清 CPU 直连与芯片组域的 PCIe 通道分配、理解 GPU 的 SIMT 执行模型、对比 DDR/GDDR/HBM 显存,以及挑对显示接口。

桌面主板是一种相当"诚实"的产品。设计上的每一个重要决定——CPU 给出几条 PCIe 通道、哪些插槽直连 CPU 哪些走芯片组、为了喂饱 250 W 的处理器配了几相 VRM、为什么第二根 PCIe 长槽其实只有 ×4——都明明白白印在那块 PCB 上。能读懂板子,你几乎就能预测用户会撞上的每一个性能悬崖。本系列第四篇要教的就是这套读板手艺,然后把同样的视角转向显卡——一颗 GPU 的全部架构都是为了让成千上万条算术通路始终有数据可吃,剩下的一切(缓存、调度器、Tensor Core、HBM 堆栈)都是为这个目标服务的。

系列导航

计算机基础深度解析系列(共 6 篇)

  1. CPU 与计算核心
  2. 内存与高速缓存
  3. 存储系统
  4. → 主板、显卡与扩展系统(PCIe、GPU、显示接口、芯片组)← 当前位置
  5. 网络、电源与实战排障
  6. 深度补遗

第一部分 — 看懂一块主板

主板其实不是一条总线,而是两个总线域,被一条高速链路缝在一起。CPU 自己掌握着一小撮宝贵的 PCIe 通道和 DDR 通道,这是直连域;其余的——额外的存储插槽、USB 控制器、SATA 端口、芯片组那一侧的 PCIe——都挂在第二个域里,由芯片组(Intel 叫 PCH,AMD 叫 FCH)统一管理。两个域之间只有一根链路:Intel 的 DMI 4.0 ×8 单向带宽约 16 GB/s,AMD 用一条规格相当的 PCIe ×4。这根链路就是整块板子上最重要的一个数字,因为芯片组那边所有设备都在抢它。

主板平面图,标出 CPU 直连域与芯片组域

值得仔细看的有五个区域:

  • CPU 插座与 VRM。LGA 1700 和 AM5 满载能吃到 250 W。围在 CPU 周围那一竖排 MOSFET + 电感就是 VRM,它把 EPS 8-pin 送来的 12 V 转成 CPU 核心实际需要的 1.0–1.4 V。一块板子如果 VRM 相数撑不住所配的 CPU,就是评测里"长时间负载会降频"那类口碑差评的根源。
  • DIMM 插槽。消费级板子永远是双通道(A1/A2 + B1/B2 各一对)。只插 A2 + B2(多数板子上离 CPU 最远的那两个)能走双通道;只插 A1 + A2 反而会悄悄把带宽砍一半。DDR5 的供电模块集成在 DIMM 上,所以 DDR5 板子的内存供电相数比当年的 DDR4 板子少。
  • 第一根 PCIe 长槽。直连 CPU 的 PCIe 根复合体;在 Z790/X670E 上是 PCIe 5.0 ×16。显卡就要插这里——满带宽,不经过芯片组。
  • M.2_1。几乎也都是 CPU 直连(PCIe ×4),是板子上最快的一个 NVMe 槽位。
  • 芯片组及其下游。第二根 PCIe 长槽、M.2_2、SATA 端口、后窗 USB、Wi-Fi、声卡——这些全都在 DMI 链路的另一端。

由此立刻能推出两个实用结论。第一,第二根物理 ×16 槽通常并不是真 ×16:在 B760/B660 上它是经芯片组走 ×4,并和 USB、SATA 共享带宽。插第二张显卡能用,但被限速。第二,用 M.2_2 往往会让两个 SATA 端口失效,因为芯片组在那几条通道上做了多路复用——具体禁用哪两个端口,说明书会写明。

怎么验证你拿到的真就是 ×16

你买了块主板,宣传是"PCIe 5.0 ×16",怎么知道它现在确实在跑 ×16?Windows 下最方便的就是 GPU-ZBus Interface 那一栏会显示协商出来的位宽和代际,例如 PCIe x16 5.0 @ x16 5.0。Linux 下用 lspci -vv | grep -i lnk,里面 LnkCap 是槽位能力,LnkSta 是实际协商结果。如果 LnkStaLnkCap 窄或者老,那就是下游某个东西——延长线、BIOS 设置、用错了槽——把它强制降速了。

第二部分 — PCIe 代际与通道分配

PCIe 是通用扩展总线,关键参数只有两个:代际(决定单通道带宽)和位宽(聚合多少条通道)。每一代几乎都把单通道速率翻倍,所以 Gen 4 ×4 的 NVMe 和 Gen 3 ×8 设备理论带宽相当。

PCIe 2.0 → 5.0 在 ×1/×4/×16 下的带宽,以及实际设备的带宽需求

代际年份单通道(GB/s)×4(NVMe)×16(GPU)
PCIe 2.020070.528
PCIe 3.020101.0416
PCIe 4.020172.0832
PCIe 5.020224.01664
PCIe 6.020258.032128

表里给的是单方向数值;PCIe 是全双工,聚合后还要再乘以 2。图和表用的都是单方向口径,因为 GPU-Z 和 lspci 报的也是这个。

关键的事实是:消费级 GPU 直到今天还没把 PCIe 4.0 ×16 跑满。 RTX 4090 在持续游戏负载下平均也就在 22 GB/s 左右,远低于 Gen 4 32 GB/s 的天花板。PCIe 5.0 真正先被用爆的是 NVMe SSD——单盘 Gen 4 ×4 已经跑到 7 GB/s 顶板,Gen 5 把上限直接翻倍。如果你今天要在两者之间二选一,先为 Gen 5 NVMe 付钱,再考虑 Gen 5 显卡支持

CPU 通道比芯片组通道稀缺得多

一颗典型的消费级 CPU 直接给出 20 条 PCIe 5.0 通道:16 条给显卡槽,4 条给主 M.2。这就是 CPU 直连的全部预算。其余设备都挂在芯片组下游,芯片组再扇出更多 PCIe 4.0 通道(Z790 常见 20 条以上),但所有这些下游设备共享回 CPU 的那条 DMI。算一下账就很残酷:Z790 芯片组对外发 20 条下游通道,但上行只有 16 GB/s。系统空闲时看不出问题,可一旦你同时压两块 NVMe + 一张 10 GbE 网卡,DMI 就成了瓶颈,三个设备一起降速。

这正是工作站平台(线程撕裂者、Xeon-W)贵到天上的原因:CPU 自身就给到 64+ 条 PCIe,根本没有共享瓶颈。

不同设备到底需要多少带宽

设备实际位宽持续带宽该插哪
现代显卡(RTX 4090 / RX 7900 XTX)×1618–22 GB/s第一根长槽,CPU 直连
NVMe Gen 5 SSD×412 GB/sM.2_1,CPU 直连
NVMe Gen 4 SSD×47 GB/s任意 ×4 M.2 槽
10 GbE / 25 GbE 网卡×4(25G 要 ×8)1.25–3.1 GB/s任意空闲 ×4 以上槽
采集卡 / USB 4 扩展卡×4至多 5 GB/s任意空闲 ×4 以上槽
声卡、USB 2 扩展×1<0.5 GB/s任意 ×1 槽

结论:一张显卡 + 两块 NVMe 的游戏机,B660/B650 的带宽就完全够用。升 Z790/X670E 不是为了显卡更快,而是为了第二个 CPU 直连 M.2 槽、为 K 系列 CPU 准备的更多 VRM 相数,以及更丰富的后窗 I/O(USB 3.2 Gen 2×2、2.5 GbE)。

第三部分 — 从南北桥到 PCH:芯片组是怎么变小的

2025 年你能买到的主板,大芯片数大约只有 2005 年那块的一半。这不是缩水,而是"高速部分被吸进 CPU 封装、芯片组只剩慢而多的活"——一段集成化的故事。

传统南北桥架构与现代 PCH 架构对比

旧时代(左图),CPU 通过 前端总线(FSB) 连到 北桥,北桥里住着内存控制器和 AGP/PCIe ×16 链路;南桥 通过更慢的 hub-link 挂在北桥下面,负责 USB、SATA、PCI、声卡。内存带宽被 FSB 卡脖子,北桥发热到要单独配散热片。

新时代(右图),CPU 封装内已经集成了 内存控制器(IMC)PCIe 根复合体、核显,以及一大块 L3 缓存。内存和 GPU 现在直接和 CPU 对话。芯片组(Intel PCH、AMD FCH)被降级成一个"扇出"角色:吃进上行的 DMI ×8,吐出一堆 PCIe 4.0 ×1/×4、SATA、USB 控制器、Wi-Fi 连接。它的发热低到经常连散热片都不需要,板子上那个金属盖纯粹是为了好看。

架构上的回报是:CPU 直连设备(显卡、主 NVMe、内存)拿到满带宽和最低延迟;同时一群慢但多的设备在芯片组那边和平共处。代价就是这第二层共享带宽有上限,所以我们才会反复回到那句话——“DMI 是整块板子上最重要的一个数字”。

第四部分 — 走进 GPU:SIMT、Warp 与 流式多处理器

CPU 和 GPU 都叫"处理器",但优化目标恰好相反。CPU 的设计目标是尽快跑完一条线程——缓存、分支预测器、乱序执行、深流水都为这一个目标服务。GPU 的设计目标是让数千条算术通路无时无刻保持忙碌,哪怕单条通路因为等内存而空转也无所谓。能做到这件事的架构模型叫 SIMT —— Single Instruction, Multiple Threads(单指令、多线程)。

GPU 内部结构:共享 L2、八个流式多处理器、warp 调度器、CUDA / Tensor / RT 核心

层级从下往上看:

  1. 一条 CUDA lane(NVIDIA)或 流处理器 lane(AMD)就是一个浮点 ALU,每个周期完成一次算术运算的一个元素。
  2. 一个 warp 是 32 条 lane(NVIDIA)或 32–64 条 lane(AMD 叫 wavefront),它们步调一致地执行同一条指令,只是数据各不相同。SIMT 的精髓就在这里:32 条 ALU 共享一个指令译码器。
  3. 一个流式多处理器(SM) 拥有"同时让一大批 warp 在飞"的全部资源:寄存器堆、L1/共享内存,以及一个 warp 调度器。调度器每个周期挑一个就绪的 warp 去发射;当某个 warp 在等内存时,调度器就跑别的 warp。这就是用并行度掩盖延迟——GPU 真正的超能力。
  4. 整颗 GPU 芯片 把 40–144 个 SM 用一块共享 L2 缓存(现代芯片 32–96 MB)连起来,再通过一条很宽的总线接出片外内存。

每个现代 SM 里都内嵌了两类专用核心:

  • Tensor 核心(NVIDIA)/ AI 加速器(AMD)一拍完成一次小尺寸矩阵乘加。一个 Tensor 核心每周期能跑一次 4×4 FP16 matmul,这就是为什么 DLSS、Stable Diffusion、LLM 推理在 RTX 卡上比纯走 CUDA 核心快得多。
  • RT 核心 用硬件加速光线—三角形和光线—包围盒的相交测试。没有 RT 核心,光追就只能退回到通用着色器跑,慢一个数量级。

GPU 规格表上那些大数字——RTX 4070 上的 “5 888 个 CUDA 核心”、RTX 4090 上的 “16 384 个核心”——其实就是 SM 数 × 每 SM 的 lane 数。你更应该关心的反而是 SM 数,因为这才是有多少个独立调度器在帮你藏延迟。

第五部分 — CPU vs GPU:什么时候用谁

理解了 SIMT 模型之后,“CPU 和 GPU 谁更快"这个问题就不该这么问了,应该改成"这是哪一种活”。两个参数说了算:

  • 独立性。任务能不能拆成大量互不通信的元素?像素着色、矩阵乘、稠密神经网络推理都行;树遍历、分支密集的游戏逻辑、单文件压缩都不行。
  • 体量。活够不够多,能摊薄 GPU 的启动开销?一次 CUDA kernel 启动端到端大约要 5–50 µs,如果你这个任务在 CPU 上一共也就 1 ms 不到,扔给 GPU 反而更慢

CPU 与 GPU 的核心布局示意,以及随工作量增长的墙钟交叉曲线

右边那张图就是交叉点。在大约 250 个独立工作元素之下,8 核 CPU 跑得更快——因为 GPU 的启动开销在墙钟时间里占了大头;超过这个量,GPU 的并行度开始压倒性获胜,等到几万元素时,GPU 已经快了两个数量级。真实负载在这条曲线上的位置差异极大:

任务单次工作量最佳处理器原因
编译一个 C++ 文件1 个文件CPU分支多、串行、规模小
渲染一帧游戏画面200 万像素 × 着色操作GPU大规模均匀并行
SQLite 单点查询1 行CPU延迟敏感、分支多
训练一个神经网络 batch数百万次 FMAGPU(Tensor 核心)稠密 matmul
排序 1 万个整数1 万都差不多,CPU 常更快在交叉点之下
4K H.265 视频编码每帧GPU(专用 NVENC)固定功能硬件,连着色器都不用

诚实的总结:CPU 赢小、分支多、延迟敏感的活;GPU 赢大、均匀、吞吐敏感的活;专用固定功能模块(视频编码器、显示引擎、网卡)赢一切窄到能直接做进硅里的事。系统设计的本事,就是把每一份工作放到对的地方。

第六部分 — 内存带宽:DDR vs GDDR vs HBM

一颗有 1.8 万条 ALU 的 GPU,如果喂不饱也是白搭。所以高端 GPU 的芯片面积里,内存控制器和缓存几乎和计算单元一样多。也是因为这个原因,CPU 和 GPU 的内存技术早就分了岔。

DDR、GDDR、HBM 带宽对比(对数轴)+ 三种封装拓扑示意

三大家族优化的目标各不相同:

  • DDR(DDR4、DDR5) 优先考虑容量、模块化 DIMM 和单 bit 成本。CPU 用它,是因为大多数 CPU 负载吃延迟、要的是大容量:64–192 GB 都很常见。带宽方面,桌面双通道大约 50–100 GB/s,服务器 12 通道能到 300–500 GB/s
  • GDDR(GDDR6、GDDR6X) 是 DDR 的"针脚兼容但更快"的表亲,直接焊在显卡 PCB 上,配很宽的位宽(RTX 4070 是 256-bit,RTX 4090 是 384-bit)。每针速率 16–24 Gb/s,聚合带宽 450–1 000 GB/s。容量上限低得多(一般 12–24 GB),因为能围在 GPU 周围的 GDDR 颗粒就那么多。
  • HBM(HBM2e、HBM3、HBM3e) 把 8–16 颗 DRAM die 三维堆叠起来,用硅通孔(TSV)连接,整堆放在硅中介层上紧挨着 GPU。每堆暴露 1024-bit 总线,一颗 GPU 通常用 4–6 堆。聚合带宽到达 2–5 TB/s(H100/MI300 这一档),代价是封装成本高出一截、单堆容量受限。

图里的拓扑示意是记住"带宽差距为什么这么大"的最简单办法:DDR 信号要在又长又有损的 PCB 走线上跑,所以每针只能慢慢切换;HBM 信号在中介层上只走几毫米,每针都能切得快,而且一堆里就有 1 024 根。带宽 = 频率 × 位宽,HBM 在两个维度上都赢。

实务规则:游戏 GPU 用 GDDR,AI 加速器用 HBM。分水岭出现在企业级推理卡上——一旦模型塞不进 24 GB 的 GDDR,不管你愿不愿意都会被推向 HBM。

第七部分 — 显示接口:DP、HDMI、USB-C

把像素从显卡送到屏幕上,今天有三种现代选项。它们并不可互换,每一种都是为了不同的约束被设计出来的。你顺手从抽屉里抓的那条线,往往才是真正的瓶颈。

常见显示接口的有效带宽,以及"什么场景该用什么口"的对照表

接口有效负载旗舰模式强项场景
HDMI 2.014.4 Gb/s4K@60 Hz HDR10电视、主机、投影
DisplayPort 1.425.9 Gb/s4K@120 Hz / 8K@60 Hz(DSC)高刷 PC 显示器
HDMI 2.142.6 Gb/s4K@144 Hz、8K@60 Hz、eARC、VRR新世代电视、PS5/XSX
USB-C / Thunderbolt 4(DP-Alt)高至 40 Gb/s4K@144 + 100 W 供电 + USB单线笔电扩展坞
DisplayPort 2.1(UHBR 20)77.4 Gb/s4K@240 Hz 无压缩、8K@120 Hz2025+ 旗舰显示器

三条规则覆盖 95 % 的真实选型:

  1. 电视 → HDMI 2.1。ARC/eARC 把音频通过同一根线送回功放,VRR 消除主机撕裂,ALLM 自动切到游戏模式。这些 DisplayPort 都做不到。
  2. 高刷 PC 显示器 → DisplayPort。每针速率更高、原生支持多流传输(一根线菊花链两台显示器)、G-Sync/FreeSync 兼容性更广。绝大多数游戏显示器配 1 个 HDMI 2.1 + 3 个 DP 输入,正是这个理由。
  3. 笔电扩展坞 → USB-C / Thunderbolt 4。一根线同时载 DP 1.4 视频、USB 3 数据、最高 100 W 供电。这是唯一一个线材里的有源芯片真的会影响成败的场景——请买带认证的 Thunderbolt 线,不要用充电线。

最常见的失败案例是用一条老 HDMI 线插在新 HDMI 2.1 口上,然后纳闷为啥没有 4K@120 Hz。瓶颈在线,不在端口;要找的标识是 HDMI Ultra High Speed Certified,正品包装上一定印着。

第八部分 — 集显 vs 独显:分水岭到底在哪

集成 GPU(iGPU)住在 CPU 封装里,和 CPU 核心共享系统 DDR 内存。独立 GPU(dGPU)是一张独立板卡,自带 GDDR 显存、走自己的 PCIe 总线。两者的性能差距几乎完全由显存带宽和着色器数量决定,而 dGPU 在这两项上都遥遥领先。

任务集显(Intel UHD 770 / AMD 780M)独显(RTX 4060)
办公、浏览网页、视频播放流畅 ✅大材小用
4K H.264/HEVC 解码硬件加速 ✅硬件加速
LoL / CS2 / 无畏契约 1080p60–120 FPS ✅200–400 FPS
赛博朋克 2077 1080p 高画质12–18 FPS ❌75 FPS ✅
Stable Diffusion XL慢到不可用1.5 秒/迭代 ✅
DaVinci Resolve 4K 剪辑时间线卡顿流畅 ✅

决定方式是二元的。只要工作和 3D 渲染、AI 没关系,集显就够了,没必要为独显付钱。只要工作沾上 3A 游戏、光追、机器学习、3D 内容创作,集显就一定不够——哪怕 AMD 780M 这种顶级集显,也只摸到了五年前 GTX 1650 的门槛。

“我把显示器插主板上了"是怎么回事

如果你装了独显,显示器线必须插在显卡的输出口上,而不是主板的。一旦插主板,系统会悄悄走集显渲染,独显就闲置了。最直观的证据是 GPU-Z 里的 GPU Load 在该满载的游戏里只有 0–5%。

原理很简单:哪个 GPU 拥有哪个输出口,是物理走线决定的——主板上的 HDMI 直接连到了 iGPU。某些 BIOS 能让 iGPU 的输出经过 dGPU 转发(Intel 的 iGPU Multi-Monitor + 类 Optimus 方案),但这是笔记本上的玩法,桌面上不太稳。简单原则:装了独显 → 线插在独显上。

第九部分 — VRM、电源接口与持续性能的边界

一颗现代 K 系列 Intel CPU 在 PL2 boost 下能拉到 253 W;Ryzen 9 7950X 在 PPT 下能拉到 230 W;RTX 4090 持续 450 W、瞬时尖峰 600 W。这些功率不可能只靠 24-pin ATX 那一根线送过去。主板把 PSU 送来的 12 V 转成 CPU 想要的 1.0–1.4 V,显卡则通过另外一组线直接吃 12 V。负责给 CPU 转电的那个模块叫 VRM(电压调节模块),它的相数告诉你它能稳定输出多少持续功率而不过热。

CPUTDP / PL2推荐 VRM典型主板档次
i3 / Ryzen 3≤65 W6+2 相H610 / A620
i5 / Ryzen 5(非 K)65–125 W10+2 相B760 / B650
i7-13700K / R7 7700X125–180 W14+2 相中端 Z790 / X670
i9-13900K / R9 7950X(超频)250–300 W18+2 相,带散热片旗舰 Z790 / X670E

把旗舰 CPU 配在入门 VRM 上,会触发 DIY 装机里最阴险的一种故障:能开机,跑分前 30 秒也漂亮,然后随着 VRM MOSFET 温度过 100 ℃,开始慢慢降频。评测人员之所以专门测 VRM 温度,就是因为这个数字才是把"账面相似"的 130 美元板和 250 美元板真正区分开的指标。

显卡供电就简单多了,因为它根本不经过主板。看接口就知道功耗预算:

显卡功耗接口代表卡
≤75 W无(PCIe 槽供电)GTX 1650
75–150 W6-pin × 1RTX 3050
150–225 W8-pin × 1RTX 4060 Ti
225–300 W8-pin × 2RTX 4070 Ti
≥300 W12VHPWR(16-pin) × 1RTX 4080 / 4090

漏插显卡供电的结果:要么主板报蜂鸣不开机,要么开机但 GPU 被强制限到 75 W——慢到有些游戏直接启动就崩。开机前请先把所有接口数一遍。

第十部分 — 真正值得调的几个 BIOS 选项

BIOS 里的开关上百个,但产生用户能感知性能收益的只有四个。

  • XMP / EXPO(Intel / AMD)。内存包装上写着"DDR5-6000”,可默认会跑在 JEDEC 速率(DDR5-4800),直到你打开内存模组上的超频档案。开 XMP/EXPO,CPU 瓶颈型游戏免费拿 5–15%。如果开了进不了 POST,清 CMOS 后退一档档案,或者手动把频率往下降一格再试。
  • Resizable BAR / Smart Access Memory。让 CPU 一次性把整块 VRAM 映射进地址空间,而不是按 256 MB 滚动开窗。在贴图工作集大的游戏里(赛博朋克 2077、极限竞速地平线)值 2–8% FPS。要求"Above 4G Decoding"和"Re-Size BAR"同时开,再加一张支持的卡(RTX 30/40、RX 6000/7000)。
  • CPU 功耗墙(Intel 的 PL1/PL2,AMD 的 PPT/TDC/EDC)。多数主板默认锁住,意味着 CPU 只能在 boost 维持 28–56 秒就掉回基础频率。把限制拿掉(或把 PL1 = PL2)后,只要散热扛得住,CPU 就能一直 boost——长编译、长渲染通常能多挤出 10–20%。
  • 风扇曲线。多数板子默认偏静音,温度容易飘到降频区。设一条"75 ℃ 时打到 80% 转速"的曲线,多几分贝噪音,换来稳定的 boost 频率,比降频划算。

剩下的 BIOS 选项(Secure Boot、虚拟化、SATA 模式)属于正确性相关、性能无感的范畴。要用 Docker、WSL2、VMware、Android Studio 就把虚拟化打开;其他默认就别动。

总结

主板是两个域被一条链路黏起来的:CPU 直连域以满速跑显卡、主 NVMe 和内存,芯片组域通过共享 DMI 把其余设备扇出。看懂 PCB,就知道哪个槽是哪一类。

PCIe 单通道带宽每代翻倍,所以 Gen 4 ×4 的 NVMe 等于 Gen 3 ×8。消费 GPU 还没把 PCIe 4.0 ×16 跑满;Gen 5 真正要紧的是 SSD。

GPU 的胜利来自并行:SIMT 模型让 32 条 lane 共跑一条指令,SM 通过逐周期切换 warp 来藏内存延迟。CPU 赢小、分支多、延迟敏感的活,GPU 赢大、均匀、吞吐敏感的活——按工作量选,别按惯性选。

内存技术也分岔:CPU 用 DDR(容量、延迟)、游戏 GPU 用 GDDR(带宽、容量适中)、AI 加速器用 HBM(带宽、片上封装)。显示接口同样分岔:电视/主机用 HDMI 2.1、高刷 PC 显示器用 DisplayPort、笔电扩展坞用 USB-C/Thunderbolt。

装了独显,显示器线必须插显卡。VRM 相数要匹配 CPU 的持续 TDP,否则系统会悄悄降频。XMP/EXPO 和 Resizable BAR 是免费收益,BIOS 里其余的都属于调优练习,不是一招制胜。

下一篇:第五篇——网络、电源与实战排障。

Liked this piece?

Follow on GitHub for the next one — usually one a week.

GitHub