每次看 AI 新闻,总会听到「某公司又买了几万颗 GPU」。为什么是 GPU,不是听起来更高级的 CPU?这颗芯片到底有什么魔力,让全世界的 AI 公司抢着要?

这篇就把 GPU 讲白。先看它是什么、和 CPU 差在哪,再谈为什么 AI 非它不可、市场由谁主导,以及从 H100 到 GB300 这些世代的差别。这是 AI 硬件供应链一条龙 第 1 关「AI 芯片」的入门版。


GPU 是什么?

GPU 的全名是 Graphics Processing Unit,图形处理器。它原本是为游戏、3D 绘图设计的,特色是拥有大量结构简单的小运算核心,能同时处理成千上万笔相似的运算。

这个「人多」的特性,后来被发现非常适合跑 AI。因为训练神经网络,本质上就是把问题拆成无数个小小的矩阵运算,一起算。GPU 刚好就是为这种场面而生。

打个比方:CPU 像一位精算高等数学的教授,一次专心解一道难题;GPU 像一千个只会加减法的小学生,每人分一小块,一起算反而快得多。而 AI 要算的,正是几亿道简单题目同时上场的场面。


核心数据快照

下面几个数字帮你抓住 GPU 这一关的量级。市占类数字多为研调或政策机构估计,看的时候抓量级就好。

主题数值时点/性质
NVIDIA AI 用 GPU 市占约八成以上(云端自研 ASIC 另计,口径不同)2025-2026,研调/政策机构估计
NVIDIA 数据中心年营收FY2026 约 1,937 亿美元NVIDIA 官方财报
旗舰 GPU 内存:H200 / B300H200 约 141GB HBM3e;B300 约 288GB HBM3e2024-2025,官方规格
GB300 NVL72 整柜72 颗 Blackwell Ultra GPU、20TB GPU 内存2026,官方规格
次世代 Vera Rubin规划 2026 下半年起由伙伴供应官方路线图/前瞻

GPU 跟 CPU 差在哪

两者最大的差别在「核心的数量与分工」。

CPU 核心数量少,但每一颗都很强、很全能,配上大量缓存与分支控制,擅长一步接一步、需要边做边判断的工作,例如操作系统、数据库、程序逻辑。GPU 反过来,把芯片塞满大量较小的核心,追求的是「同时做很多事」的总吞吐量,适合矩阵运算、图像处理、科学模拟与深度学习。

在一台 AI 服务器里,这两种芯片其实是分工合作的:CPU 负责调度数据、管理程序与网络,GPU 负责跑模型最吃重的运算。所以两者是各司其职的伙伴关系。


为什么 AI 非 GPU 不可

关键在「并行」这两个字。

AI 模型的训练与推理,骨子里是海量的矩阵与向量运算同时进行。GPU 里有两种核心特别重要:一种是 CUDA Core,大量通用的小计算单元,负责一般的并行运算;另一种是 Tensor Core,专门加速 AI 最常用的矩阵乘法,还支持 FP16、FP8、FP4 这些低精度格式(用较少位元换更快的运算)。AI 算力大多花在这类运算上。

旁边还要配上高速的 HBM(High Bandwidth Memory,高带宽内存),把模型权重和数据喂得够快,运算核心才不会闲着等数据。想多了解这块内存,可以看 HBM 那一关


AI GPU 市场:谁在供应

这一关高度集中在英伟达身上。

依研调与政策机构估计,英伟达在 AI 用 GPU 市场约占八成以上;若把云端大厂自研的 ASIC 一起算进「AI 加速器」,口径会不同。它的护城河不只在芯片,更在 CUDA 这套软件生态:开发者写好的程序都跑在上面,要整套搬到别家成本很高。AMD 用 Instinct MI 系列(如 MI350 配 288GB HBM3E)在后追赶;谷歌、AWS、微软等云端大厂则走自研 ASIC 的路线,在自家云里省成本、做差异化(这条线可看 ASIC 那一关)。

要提醒的是,市占与营收会随新品、财报与口径变动,这里描述的是产业格局,不是个股评价。


主流 AI GPU 世代一览

把这几年的主力世代摊开看:

世代/产品定位内存
H100(Hopper)前一代训练/推理主力80-94GB HBM
H200(Hopper)Hopper 内存升级版约 141GB HBM3e
B200(Blackwell)新世代主力约 180-192GB HBM3e(依 SKU)
B300(Blackwell Ultra)内存再加大约 288GB HBM3e
GB200/GB300Grace CPU + Blackwell GPU 超级芯片/平台GB300 NVL72 整柜 72 颗 GPU、20TB 内存
Vera Rubin下一代路线图(2026 下半年起)HBM4

重点抓两个趋势:一是内存越做越大、带宽越拉越高;二是从「单颗芯片」走向「整柜系统」,把几十颗 GPU 用高速互连绑成一台超级电脑。想看旗舰世代的细节,可接着读 Blackwell 那一关


台湾在这一关的角色

GPU 的架构设计不在台湾(英伟达在美国设计),但实体的制造高度仰赖台湾。英伟达的 Blackwell 用台积电定制的 4NP 制程生产,还要靠 CoWoS 等 先进封装 把 GPU 和 HBM 绑在一起,最后由台湾厂商(鸿海、广达、纬创等)组装成整柜 AI 服务器。换句话说,一颗 GPU 从硅片到能用的系统,大半路程都在台湾绕了一圈。


这一关的重点

看完 GPU,先记住它的本事:并行运算。大量小核心同时开工,刚好对上 AI「海量简单运算一起做」的胃口,这就是 AI 非它不可的原因。

这一关由英伟达主导,护城河是芯片加上 CUDA 软件生态;AMD 与云端自研 ASIC 在后追赶。而每一颗 GPU 的背后,都连着台积电的制程、先进封装与台湾的服务器组装。看懂 GPU,等于拿到了看懂整条 AI 硬件供应链的入场券。

想看内存怎么喂数据,看 HBM;想看旗舰世代规格,看 Blackwell;想看云端自研芯片,看 ASIC;想回头看整条链八关,回到 供应链总览