GPU 是什么？为什么它是 AI 算力主力，跟 CPU 又差在哪

一篇看懂 GPU：为什么训练 AI 要用一堆 GPU，而不是更通用的 CPU？用大白话拆解 GPU 和 CPU 的差别、CUDA 与 Tensor Core 在做什么、英伟达为何拿下八成以上市场，以及从 H100 到 GB300 这些 AI GPU 世代差在哪。

5/27 · Penna

本文目录

每次看 AI 新闻，总会听到「某公司又买了几万颗 GPU」。为什么是 GPU，不是听起来更高级的 CPU？这颗芯片到底有什么魔力，让全世界的 AI 公司抢着要？

这篇就把 GPU 讲白。先看它是什么、和 CPU 差在哪，再谈为什么 AI 非它不可、市场由谁主导，以及从 H100 到 GB300 这些世代的差别。这是 AI 硬件供应链一条龙第 1 关「AI 芯片」的入门版。

GPU 是什么？

GPU 的全名是 Graphics Processing Unit，图形处理器。它原本是为游戏、3D 绘图设计的，特色是拥有大量结构简单的小运算核心，能同时处理成千上万笔相似的运算。

这个「人多」的特性，后来被发现非常适合跑 AI。因为训练神经网络，本质上就是把问题拆成无数个小小的矩阵运算，一起算。GPU 刚好就是为这种场面而生。

打个比方：CPU 像一位精算高等数学的教授，一次专心解一道难题；GPU 像一千个只会加减法的小学生，每人分一小块，一起算反而快得多。而 AI 要算的，正是几亿道简单题目同时上场的场面。

核心数据快照

下面几个数字帮你抓住 GPU 这一关的量级。市占类数字多为研调或政策机构估计，看的时候抓量级就好。

主题	数值	时点／性质
NVIDIA AI 用 GPU 市占	约八成以上（云端自研 ASIC 另计，口径不同）	2025-2026，研调／政策机构估计
NVIDIA 数据中心年营收	FY2026 约 1,937 亿美元	NVIDIA 官方财报
旗舰 GPU 内存：H200 / B300	H200 约 141GB HBM3e；B300 约 288GB HBM3e	2024-2025，官方规格
GB300 NVL72 整柜	72 颗 Blackwell Ultra GPU、20TB GPU 内存	2026，官方规格
次世代 Vera Rubin	规划 2026 下半年起由伙伴供应	官方路线图／前瞻

GPU 跟 CPU 差在哪

两者最大的差别在「核心的数量与分工」。

CPU 核心数量少，但每一颗都很强、很全能，配上大量缓存与分支控制，擅长一步接一步、需要边做边判断的工作，例如操作系统、数据库、程序逻辑。GPU 反过来，把芯片塞满大量较小的核心，追求的是「同时做很多事」的总吞吐量，适合矩阵运算、图像处理、科学模拟与深度学习。

在一台 AI 服务器里，这两种芯片其实是分工合作的：CPU 负责调度数据、管理程序与网络，GPU 负责跑模型最吃重的运算。所以两者是各司其职的伙伴关系。

为什么 AI 非 GPU 不可

关键在「并行」这两个字。

AI 模型的训练与推理，骨子里是海量的矩阵与向量运算同时进行。GPU 里有两种核心特别重要：一种是 CUDA Core，大量通用的小计算单元，负责一般的并行运算；另一种是 Tensor Core，专门加速 AI 最常用的矩阵乘法，还支持 FP16、FP8、FP4 这些低精度格式（用较少位元换更快的运算）。AI 算力大多花在这类运算上。

旁边还要配上高速的 HBM（High Bandwidth Memory，高带宽内存），把模型权重和数据喂得够快，运算核心才不会闲着等数据。想多了解这块内存，可以看 HBM 那一关。

AI GPU 市场：谁在供应

这一关高度集中在英伟达身上。

依研调与政策机构估计，英伟达在 AI 用 GPU 市场约占八成以上；若把云端大厂自研的 ASIC 一起算进「AI 加速器」，口径会不同。它的护城河不只在芯片，更在 CUDA 这套软件生态：开发者写好的程序都跑在上面，要整套搬到别家成本很高。AMD 用 Instinct MI 系列（如 MI350 配 288GB HBM3E）在后追赶；谷歌、AWS、微软等云端大厂则走自研 ASIC 的路线，在自家云里省成本、做差异化（这条线可看 ASIC 那一关）。

要提醒的是，市占与营收会随新品、财报与口径变动，这里描述的是产业格局，不是个股评价。

主流 AI GPU 世代一览

把这几年的主力世代摊开看：

世代／产品	定位	内存
H100（Hopper）	前一代训练／推理主力	80-94GB HBM
H200（Hopper）	Hopper 内存升级版	约 141GB HBM3e
B200（Blackwell）	新世代主力	约 180-192GB HBM3e（依 SKU）
B300（Blackwell Ultra）	内存再加大	约 288GB HBM3e
GB200／GB300	Grace CPU + Blackwell GPU 超级芯片／平台	GB300 NVL72 整柜 72 颗 GPU、20TB 内存
Vera Rubin	下一代路线图（2026 下半年起）	HBM4

重点抓两个趋势：一是内存越做越大、带宽越拉越高；二是从「单颗芯片」走向「整柜系统」，把几十颗 GPU 用高速互连绑成一台超级电脑。想看旗舰世代的细节，可接着读 Blackwell 那一关。

台湾在这一关的角色

GPU 的架构设计不在台湾（英伟达在美国设计），但实体的制造高度仰赖台湾。英伟达的 Blackwell 用台积电定制的 4NP 制程生产，还要靠 CoWoS 等先进封装把 GPU 和 HBM 绑在一起，最后由台湾厂商（鸿海、广达、纬创等）组装成整柜 AI 服务器。换句话说，一颗 GPU 从硅片到能用的系统，大半路程都在台湾绕了一圈。

这一关的重点

看完 GPU，先记住它的本事：并行运算。大量小核心同时开工，刚好对上 AI「海量简单运算一起做」的胃口，这就是 AI 非它不可的原因。

这一关由英伟达主导，护城河是芯片加上 CUDA 软件生态；AMD 与云端自研 ASIC 在后追赶。而每一颗 GPU 的背后，都连着台积电的制程、先进封装与台湾的服务器组装。看懂 GPU，等于拿到了看懂整条 AI 硬件供应链的入场券。

想看内存怎么喂数据，看 HBM；想看旗舰世代规格，看 Blackwell；想看云端自研芯片，看 ASIC；想回头看整条链八关，回到供应链总览。

FAQ

GPU 是什么？跟 CPU 差在哪？

GPU（图形处理器）原本为游戏绘图设计，特色是有大量小运算核心，能同时处理成千上万笔相似运算。CPU（中央处理器）核心少但每颗强，擅长一步一步、需要判断的工作。打个比方：CPU 像一位精算高等数学的教授，一次解一题；GPU 像一千个只会加减法的小学生，人多力量大。AI 的运算刚好是大量简单运算同时做，所以靠 GPU 快得多。

AI 为什么一定要用 GPU？

因为 AI 训练与推理的本质，是数以亿计的矩阵与向量运算同时进行。这种「大量、相似、可同时做」的特性，正好是 GPU 的强项。GPU 里的 Tensor Core 更是专门加速 AI 常见的矩阵运算（如 FP16、FP8、FP4 等低精度格式）。用 CPU 也能跑，但速度会慢上好几个数量级。

CUDA 是什么？为什么大家换不掉英伟达？

CUDA 是英伟达的一整套软件开发环境，包含编程语言、编译器、加速函式库（如 cuDNN、NCCL），以及深度整合的 PyTorch、TensorFlow 生态。大家写好的 AI 程序几乎都跑在 CUDA 上，换到别家芯片要重写、重新优化，成本很高。这套软件生态，是英伟达比芯片本身更难被取代的护城河。

H100、B200、GB300 这些 AI GPU 差在哪？

简单说是世代与规格的差别。H100、H200 属 Hopper 世代，H200 配 141GB HBM3e；B200、B300 属较新的 Blackwell 世代，B300 配 288GB HBM3e。GB200、GB300 则是把 Grace CPU 与 Blackwell GPU 做成超级芯片（Superchip）再组成系统，例如 GB300 NVL72 整柜有 72 颗 GPU。越新的世代，内存越大、带宽越高、整柜整合度越强。

GPU 都是英伟达做的吗？

设计上以英伟达为主（AI 加速器市场约八成以上，依口径不同估在八到九成），AMD 的 Instinct MI 系列在追赶，谷歌、AWS、微软等云端大厂则自研 ASIC（如 TPU、Trainium）并存。制造端则几乎都靠台积电的先进制程，再经 CoWoS 等先进封装与台湾厂商的服务器组装，才变成能用的系统。

免责声明与利益披露

本文仅供一般信息与教育参考，不构成投资、法律、税务或任何专业建议。市场与法规可能随时变化，文中信息仅反映撰写当时状况。

本站并非经监管机构许可的证券投资顾问。文中提及的任何证券、虚拟资产或金融商品，仅为信息整理，不构成买卖建议。所有投资决策请自行判断并承担风险。

本文部分或全部内容涉及 AI（Penna）参与生成，实际比例依个别文章而异，内容可能存在信息错误或遗漏，不构成投资或财务建议。请以原始来源查证为准。

作者可能持有文中提及的部分资产，持仓可能随时变动，恕不逐次更新。

详见本站法律声明与利益披露与隐私政策。