每次英伟达开发布会,新闻就冒出一堆名字:B200、GB200、GB300、NVL72、Rubin。听起来都很猛,但它们到底是不同的东西,还是同一个东西的不同讲法?

这篇就把 Blackwell 世代一次讲清楚。先把「GPU、超级芯片、整柜系统」这三个层级分开,再看规格差在哪、出货到哪,以及下一代 Rubin 和台湾代工厂的角色。这是 AI 硬件供应链一条龙 第 1 关「AI 芯片」的深入版。


先分清楚:GPU、超级芯片、整柜,是三个层级

新闻最容易把人搞混的,就是把三个层级的东西混在一起讲。先把它们拆开:

  • B200 / B300:单颗 GPU,是最基本的运算芯片。
  • GB200 / GB300:一颗 Grace CPU 加上两颗 GPU,绑成一颗「超级芯片(superchip)」。
  • GB200 / GB300 NVL72:把 36 颗 Grace CPU 和 72 颗 GPU,用高速连接串成一整柜,当成一台超级计算机来操作。

所以你看到 GB300 NVL72,讲的是一整柜 72 颗 GPU 的系统;看到 B300,讲的是里面那一颗 GPU。记住这个由小到大的层级,后面的数字就不会乱。


Blackwell 是什么?为什么这么强

Blackwell 是英伟达在 2024 年推出、2025 到 2026 年大量出货的 AI 芯片架构,接在前一代 Hopper(H100/H200)之后。

它最关键的设计,是把两颗大运算晶粒(die)缝成一颗 GPU。受制程限制,单一晶粒能做多大有上限,于是英伟达用一条每秒 10 TB 的超高速连接(NV-HBI),把两颗晶粒接成「看起来像一颗」的 GPU,整颗塞进约 2080 亿个晶体管,制造交给台积电的 4NP 制程。

算力上,Blackwell 主打一种叫 NVFP4 的超低精度数字格式(可以先理解成:用更省的方式表示数字,换取每秒更多次运算),把 AI 推理的吞吐量一口气拉高。一句话:Blackwell 是「一颗当两颗用」的旗舰 AI GPU。


核心数据快照

下面把 Blackwell 世代的关键规格放在一起。先补三个词:HBM 是 GPU 旁边的高速显存、PFLOPS 是每秒能做多少次浮点运算、CoWoS 是把 GPU 和 HBM 封在一起的先进封装。数字以英伟达公布为准。

产品层级关键规格状态
B200GPU192GB HBM3E、带宽 8 TB/s、NVFP4 约 10 PFLOPS、功耗约 1200W出货中
B300(Blackwell Ultra)GPU288GB HBM3E、带宽 8 TB/s、NVFP4 约 15 PFLOPS、功耗约 1400W出货中
GB200 NVL72整柜(72 GPU+36 Grace)NVFP4 约 720 PFLOPS、13.4TB HBM3E、整柜约 120kW 级出货中
GB300 NVL72整柜(72 Ultra+36 Grace)NVFP4 约 1,080 PFLOPS、20TB HBM3E、整柜约 120kW 级部署中
Vera Rubin NVL72下一代整柜单颗 Rubin 288GB HBM4/22 TB/s、整柜 NVFP4 推理约 3,600 PFLOPS2026 下半年(规格初步)

(表中 Blackwell 的 NVFP4 为密集 dense 值;英伟达营销常引用的稀疏 sparse 值约为两倍。整柜功耗依供电与散热配置而变;Rubin 整柜标的是推理口径,与 Blackwell 的密集值不可直接相比。)


B200 到 B300:同一架构再推一阶

2025 年推出、下半年起陆续商用部署的 B300,官方代号 Blackwell Ultra,是同一个架构的强化版。

最有感的两个升级:显存从 192GB 加到 288GB HBM3E,多了五成,能装下更大的模型;低精度(NVFP4)的密集算力也多了约五成。代价是功耗从约 1200 瓦升到约 1400 瓦。整柜的 GB300 NVL72 因此把显存从 13.4TB 拉到 20TB,更适合跑超大模型的推理。对云端厂商来说,这是「同一条产线、规格往上跳一阶」的顺势升级,不必整套架构重来。


出货到哪了?

Blackwell 不是 PPT 规格,已经实际在跑。

英伟达官方把 Blackwell 标示为「full production」,HGX B200、B300 都在出货中。整柜的 GB300 NVL72 也已落地:云端厂商 CoreWeave 在 2025 年中率先商用部署,微软 Azure 更在 2025 年 10 月为 OpenAI 建起一座由数千颗 GB300 GPU 组成的生产级集群。换句话说,2026 年的 AI 算力扩张,主力仍是 Blackwell 与 Blackwell Ultra。

产能瓶颈还是老地方:要出多少 Blackwell,受限于台积电的 CoWoS 先进封装和 HBM 显存供给,这两关前面的单篇有拆过。


下一代 Rubin:已公布,但别急着说它取代 Blackwell

英伟达已正式公布下一代平台 Vera Rubin,芯片本身也已进入量产(full production)。整柜的 Vera Rubin NVL72,由 72 颗 Rubin GPU 加 36 颗 Vera CPU 组成;单颗 Rubin 改用新一代 HBM4 显存(288GB、带宽 22 TB/s),整柜的 NVFP4 推理算力上看每秒约 3,600 PFLOPS,比 Blackwell 又往上跳一大阶。

但这里要踩一下刹车。产品页的规格仍标成「初步、可能调整」,官方目标是 2026 下半年由 AWS、Google Cloud、微软等云端厂商开始部署。研究机构也估计,2026 年英伟达高阶 GPU 出货仍以 Blackwell 为大宗(占比约从六成升到七成),Rubin 还有供应链调校与时程风险,其中 HBM4 的验证与供应是最关键的变数。所以务实的看法是:2026 年是 Blackwell 的主场,Rubin 是排队中的下一棒,不是立刻接班。


台湾在这关的角色

芯片设计在英伟达、制造在台积电,那把整柜系统「组起来、能量产出货」的,主要就是台湾。

鸿海(富士康)已公开展示 Vera Rubin NVL72 的整机系统;供应链报道点名广达、纬创与纬颖、英业达等台系 ODM/EMS 参与 GB200/GB300 整柜系统的代工,也提到英伟达为抢产能、预订了部分台厂的服务器厂房到 2026 年。换句话说,台湾不只做晶圆和封装,连「一整柜 AI 超级计算机」的组装出货,也是全球关键基地。这里只做产业地图,不对个股做任何投资判断。


这一关的重点

看完 Blackwell,先记住那个由小到大的层级:B200/B300 是 GPU,GB200/GB300 是超级芯片,NVL72 是整柜 72 颗 GPU 的系统。

技术上,Blackwell 用「两颗晶粒缝成一颗」加上 NVFP4 低精度算力冲高吞吐;B300(Blackwell Ultra)再把显存和算力各往上推约五成。2026 年的主力是 Blackwell,已大量出货、云端实际部署;Rubin 是已公布的下一棒,目标下半年登场,但规格仍是初步,HBM4 和整柜供应链是最大变数。

想知道喂数据给这些 GPU 的 HBM、把芯片绑起来的 CoWoS,可以看 HBM 是什么CoWoS 是什么;想看整条链八关怎么串,回到 供应链总览