每一代 AI 芯片要更强,内存就得喂得更快。当英伟达的 Blackwell 还在用 HBM3e 的时候,下一代的 HBM4 已经量产上场了。它到底升级了什么,又为什么是下一代 AI 芯片的关键?

这篇就把 HBM4 讲白。先看它和 HBM3e 差在哪、为什么接口翻倍是重点,再谈 base die 的变化、三家原厂的进度,以及英伟达下一代 Rubin 为何指定用它。这是 HBM 那一关 的世代规格延伸版。


HBM4 是什么?

先快速复习:HBM(高带宽内存)是把多颗 DRAM 裸晶垂直堆叠、用超宽接口接到 GPU 上的内存,目的是别让芯片等数据等到饿死。HBM3e 是目前 Blackwell 世代用的版本,HBM4 则是下一代。

HBM4 这一代动的是结构,不只是把旧版速度往上加。最关键的改变有两个:一是把对外接口从 1024-bit 加宽到 2048-bit,等于数据通道翻倍;二是把底部负责沟通的 base die 改用逻辑制程做。这两个变化,让 HBM4 在带宽和能效上都跳了一级。


核心数据快照

下面帮你抓住 HBM4 的规格量级。要分清楚「JEDEC 标准」与「各厂产品超规」两个口径。

主题数值时点/性质
对外接口HBM3e 为 1024-bit;HBM4 为 2048-bitJEDEC 标准
单颗带宽(标准)HBM4 最高约 2 TB/sJEDEC 标准上限
单颗带宽(产品)三星宣称最高 3.3 TB/s、美光宣称 >2.8 TB/s2026,各厂产品规格
容量支持 4/8/12/16 层堆叠,单颗最高 64GBJEDEC 标准
base die改用逻辑(晶圆代工)制程(如三星 4nm、台积电先进逻辑)2025-2026,官方

HBM3e 到 HBM4:差在哪

把两代对照看,差异很清楚。

接口宽度翻倍:这是最核心的升级。HBM3e 是 1024-bit,HBM4 加宽到 2048-bit。简单想成从「1024 车道」拓宽到「2048 车道」的高速公路,在相同车速下,能通过的车流量直接接近两倍。

带宽大跃进:HBM3e 主流产品约每秒 1.2TB;HBM4 的 JEDEC 标准是每秒 2TB,各原厂的实际产品更喊到 2.8 到 3.3 TB/s。

base die 改逻辑制程:底部那颗 base die,从 DRAM 制程改用逻辑制程,例如三星的 4nm,或与台积电合作的先进逻辑制程。这让底层芯片能塞进更多控制与定制功能,HBM 因此更像一个「内存加逻辑」的定制平台。

能效提升:SK 海力士与三星都宣称 HBM4 相较前代能效提升约四成,美光对自家 12 层产品则宣称提升超过两成。


三家原厂的 HBM4 进度

HBM4 的竞争,仍是 SK 海力士、三星、美光这三家的战场。

三星在 2026 年 2 月宣布 HBM4 量产与商用出货,产品规格喊到最高每秒 3.3TB。美光的 36GB 12 层 HBM4 在 2026 年第 1 季进入量产,并明确说是为英伟达的 Vera Rubin 平台打造。SK 海力士也完成 HBM4 开发、建立量产体系,公开规格是 2048 I/O、每秒超过 10Gb,能效提升超过四成。

要提醒的是,谁先卡进英伟达下一代规格、谁的良率高,是这场仗的胜负手,而这些仍在进行中。台湾本土厂不生产 HBM 本体,角色在封装与测试周边(细节看 HBM 概念股)。


为什么下一代 AI 芯片非它不可

HBM4 会这样升级,是被下一代 AI 芯片的胃口逼出来的。

英伟达规划中的 Rubin GPU,每颗最高可配 288GB 的 HBM4。推理型、长上下文的 AI 工作负载,要搬移的数据量比过去大得多,内存的带宽和容量一旦跟不上,再强的运算核心也只能空等。HBM4 的接口翻倍与高带宽,正是为了让数据供应跟得上 Rubin 这种等级的算力。

换句话说,HBM4 是下一代 AI 芯片的「输送带升级」。没有它,算力再高也会被内存卡住。


这一关的重点

看完 HBM4,先记住两个核心升级:对外接口从 1024-bit 翻倍到 2048-bit,以及 base die 改用逻辑制程。这两点换来了带宽与能效的大跃进。

HBM4 是喂饱英伟达 Rubin 这类下一代 AI 芯片的必要条件,三星、美光已宣布量产出货,SK 海力士也完成开发、建立量产体系。看规格时记得分清楚「JEDEC 标准」与「各厂超规产品」两个口径,数字才不会混淆。

想先搞懂 HBM 是什么、为什么缺货,回头读 HBM 那一关;想看供应链与概念股分工,看 HBM 概念股;想看把 HBM 和 GPU 绑在一起的封装,看 CoWoS;想看整条链八关,回到 供应链总览