每次新闻讲「某公司又买了几万颗 Nvidia GPU」,听起来像是买了一批显卡插上去就好。实际上没那么简单。

一颗 AI 芯片要先被设计出来、送进晶圆厂刻在硅片上,再跟内存用特殊封装绑成一块,接着靠光纤串成几千颗一起算的集群,然后想办法把整柜上百千瓦的热量带走,最后塞进一座吃电像怪兽的数据中心。这整段路,业界叫它「AI 硬件供应链」。

这条链最有意思的地方,是它的命脉并没有平均分散在全世界,而是集中压在少数几个点上,其中两个关键环节就在台湾。看懂这八关卡在哪里,比记住哪家公司股价涨跌更有用。


30 秒看懂整条链

把整条 AI 硬件供应链想成盖一座超级工厂:先在硅片上刻出运算线路(晶圆代工),把超快的运算大脑和装数据的立体内存库贴在同一块基板上(先进封装+HBM),组成一张运算怪兽显卡(AI 芯片)。再用光速等级的高速网络把成千上万张卡连起来(光互连),因为它们运转时发热惊人、传统风冷压不住,得靠液冷(散热与液冷),最后整齐装进吃电巨兽般的机房(数据中心与电力)。而这座横跨全球的工厂,每一步都被大国的法律防火墙盯着(地缘与出口管制)。

关卡它做什么(白话)代表玩家是不是卡脖子点
1 AI 芯片决定算力长什么样Nvidia、AMD、Google TPU设计集中,Nvidia 约八成
2 HBM 内存喂数据给芯片、别让它饿死SK 海力士、美光、三星✅ 三家寡占、供给吃紧
3 先进封装把芯片和内存绑成一块台积电 CoWoS、日月光✅ 产能卡死,台湾为主
4 晶圆代工把设计刻到硅片上台积电、三星、ASML(设备)✅ 先进制程+EUV 双重瓶颈
5 光互连把几千颗芯片连成集群光模块厂、硅光子厂技术门槛高,尚未断货
6 散热与液冷带走整柜上百千瓦的热台达电、Asetek、Vertiv随功率密度升高而吃紧
7 数据中心与电力盖机房、把电接进来云端大厂、电力/核能业者✅ 电网与土地正成为天花板
8 出口管制决定谁买得到、谁做得出来美国 BIS、盟友、中国跨层变量,影响所有环节

核心数据快照表

下面这些数字是整条链的「仪表盘」。要先讲清楚:产能、市占这类数字多半是研调机构或财经媒体的估计值,不是公司官方逐月公告,所以这里尽量标明时点与性质,看的时候抓「量级」和「趋势」比抓小数点更实际。

主题数值时点/性质
台积电 CoWoS 月产能2025 年底约 7-8 万片/月,2026 年底目标约 12-13 万片/月2025-2026E,目标/业界推估
HBM 市占(营收口径)SK 海力士约 54-57%、美光与三星各约 20% 上下2025 Q4 至 2026 H1,估计、口径不一
旗舰 GPU:Nvidia B300288 GB HBM3e、带宽约 8 TB/s、FP4 约 15 PFLOPS、单颗约 1400 W2025 H2 起出货
次世代:Nvidia Vera Rubin单颗 288 GB HBM4、带宽目标约 22 TB/s、整柜 TDP 约 190-230 kW2026 H2 上市前规格
光互连世代800G 已是主流,1.6T/硅光子 2025-2027 量产导入2024-2027
AI 机柜功率密度常见 30-50 kW,下一代上看 80-120 kW/柜2024-2026
前五大云厂商资本支出2026 年约 6,000-6,900 亿美元(同比增长三成上下)2026E,机构推估

第 1 关 · AI 芯片(GPU)

它在干嘛:GPU 原本是为游戏、3D 绘图设计的,靠大量简单核心做并行计算。这个结构刚好很适合把神经网络拆成无数小矩阵一起算。打个比方,CPU 像一位精算高等数学的教授,一次解一题;GPU 像一千个只会加减法的小学生,人多力量大,跑 AI 反而快上好几个数量级。

谁在赚:这一关几乎是 Nvidia 一家独大。产业统计显示,2025 年 Nvidia 在 AI 加速器市场市占约八成,AI GPU 这个更细的分类甚至估到约 86%。真正的护城河不只是芯片本身,还有绑在上面的 CUDA 软件生态,大家写好的程序都跑在它上面,要换家成本很高。AMD 的 MI 系列市占估计不到一成、慢慢往上爬;Google、Amazon 等云端大厂则走另一条路,自研 ASIC(专用芯片,例如 TPU、Trainium)在自家云里省成本、做差异化,但全球整体份额仍远小于 Nvidia。

指标数值时点/性质
Nvidia AI 加速器市占约 80%2025,市调估计
Nvidia AI GPU 子市场市占约 86%2025,市调估计
AMD AI GPU 市占小于 10%,随 MI 系列上升2025E,估计

台湾在这关:芯片设计不在台湾,但 Nvidia 整柜的 AI 系统(像 Vera Rubin NVL72)很多由台系厂商(如和硕)做成可量产的产品出货。台湾不只做晶圆和封装,也是整柜 AI 服务器的重要组装基地。

短期内你听到的「AI 服务器」几乎都还是 Nvidia 当家,自研芯片比较像长期布局,不是今年就会翻盘的事。


第 2 关 · HBM 高带宽内存

它在干嘛:芯片再快,数据喂不上来也是空转。HBM(High Bandwidth Memory,高带宽内存)就是专门解决这件事。一般 DRAM 是横向排成一条条内存;HBM 则把内存层层垂直堆叠,用「硅通孔」连起来,再通过超宽的接口接到 GPU。一句话:它是站起来的超宽内存,目的是别让 GPU 等数据等到饿死。

现在卡在哪:HBM 是三家寡占,SK 海力士、美光、三星。SK 海力士技术与市占都领先(依口径约占五成多),美光从 2024 年底的个位数市占快速冲上约两成,三星则在追赶。重点是供给很紧:美光已公开表示 2026 年的 HBM4 产能「全部被预订一空」。这代表就算晶圆和封装产能扩出来,HBM 跟不上,整机一样出不了货。

厂商HBM 市占(营收口径)时点/性质
SK 海力士约 54-57%2025 Q4-2026 H1,估计
美光(Micron)约 18-21%同上,快速成长
三星(Samsung)约 20-22%同上,追赶中

注:HBM 市占数字会因「算所有 HBM」或「只算最新 HBM4」、以及时点不同而有出入,这里取各家报道的区间,方向一致,海力士领先、美光急起直追。

台湾在这关:台湾不生产 HBM 晶圆,但 HBM 最后要在台积电与封测厂被堆叠、测试,再送进台系服务器厂组装。HBM 越缺,先进封装和系统集成的议价力就越高,台湾在下游的份量反而被放大。


第 3 关 · 先进封装(CoWoS)

它在干嘛:要让 GPU 和 HBM 之间跑出每秒 20 几 TB 的数据量,两者必须「贴得非常近」,传统电路板走线根本做不到。先进封装就是把多颗芯片放到一块硅中介层上、紧靠在一起,甚至直接叠起来。台积电的 CoWoS 就是这类技术的代表,把 GPU 和好几颗 HBM 绑成一颗超大模组。可以想成:把好几块乐高精准黏在同一块底板上,变成一颗「大积木」。

为什么是卡脖子点:高阶 GPU 几乎全用 CoWoS 或类似封装,所以 CoWoS 月产能直接决定了这些芯片一年能出多少。2025-2026 年的报道几乎口径一致:Nvidia 的 CoWoS-L 产能「完全被订满」,台积电还得把部分订单外包给日月光、Amkor 等封测厂当安全阀。

时点台积电 CoWoS 月产能性质
2023 年底约 1.3-1.6 万片/月估计
2024 年底约 3-4 万片/月估计
2025 年底约 7-8 万片/月估计
2026 年底(目标)约 12-13 万片/月目标/业界推估

台湾在这关:CoWoS 主力产能集中在台湾的几个科学园区厂,新扩产项目也大多在台湾。就算部分外包,多数也与台湾供应链紧密相连(像矽品本身就是台湾公司)。在「GPU+HBM 的封装」这一层,台湾是全球单一最关键的地理集中点之一,这种高度集中本身就是供应链层面要留意的单点风险,高阶 AI 平台短期内很难找到替代产能。


第 4 关 · 晶圆代工与光刻设备

它在干嘛:晶圆代工就是「帮别人做芯片」。Nvidia 自己设计 GPU,但制造交给台积电。制程节点(5 纳米、3 纳米、2 纳米)可以粗略理解成「线宽」,数字越小,同样面积塞进越多晶体管、越省电。现在高阶 AI 芯片几乎都用 3-5 纳米级别。

集中到什么程度:台积电在全球纯晶圆代工市占约六成四(2024 Q3),远胜第二名三星的一成二。更关键的是,台积电 7 纳米以下的先进制程贡献了约七成四的晶圆营收,全球高阶 AI 芯片几乎都集中在这条最先进的产线上。

指标数值时点
台积电全球晶圆代工市占约 64%2024 Q3
三星晶圆代工市占约 12%同上
台积电 7 纳米以下制程营收占比约 74%2025 Q4

还有一个藏在后面的瓶颈,就是 ASML:要做 7 纳米以下,必须用极紫外光(EUV)光刻机,而全世界只有荷兰的 ASML 做得出量产级 EUV,几乎是垄断。一台机器要价一亿八千万到三亿八千万欧元。这代表只要对 ASML 设备出口设限,就能直接掐住下游晶圆厂能不能做更先进的制程。

台湾在这关:台积电是全球最先进制程的最大供应者,而这种技术与产能高度集中在台湾产业。这种「最先进制程压在单一地区」的集中度,本身就被视为全球 AI 芯片供应的一个结构性风险,也是产业界与各国政策长期关注供应链韧性的原因。


第 5 关 · 光互连

它在干嘛:训练大模型时,几千甚至几万颗 GPU 要不停交换数据。距离一拉长、速度一拉高,传统铜线的信号就会衰减失真。所以集群内部改用光纤传输,把电信号转成光、送出去再转回来。速率从 400G 一路往上推到 800G、再到 1.6T。

现在走到哪:800G 光模块已是 2024-2025 年 AI 数据中心的主流,比 400G 带宽翻倍、每比特功耗还降三到四成。1.6T 模块(含共封装光学 CPO、硅光子方案)2025-2027 年陆续量产。CPO 的关键在于把光引擎直接封装在芯片旁边,大幅缩短电路距离、省下不少功耗,以 Nvidia 的数字,每个连接端口可以从约 30 瓦降到约 9 瓦。在动辄上万颗 GPU 的集群里,这种省电会被放得很大。

台湾在这关:台湾有不少网通与服务器系统厂负责集成光模块与交换器,也供应电路板、机构件与测试。不过硅光子芯片本身主流仍由美国、中国厂商设计生产,台湾在这层比较偏代工与零组件,市占公开数据有限。这一关技术门槛高,但目前还没出现像 CoWoS 那种「整条断货」的情形。


第 6 关 · 散热与液冷

它在干嘛:一颗 B300 GPU 就要 1400 瓦,一柜装 72 颗很容易破 150-200 千瓦。传统靠空调加风扇的机柜大概只扛得住每柜 5-10 千瓦,到了 AI 机柜根本不够看。于是液冷登场:把冷却液直接送到芯片上的冷板带走热量(直接芯片液冷),或干脆把整台服务器泡进不导电的液体里(浸没式)。

数字感受一下

机柜类型功率密度备注
传统企业机柜约 5-10 kW/柜风冷即可
目前 AI GPU 机柜约 30-50 kW/柜风冷已接近极限
下一代 AI 机柜约 80-120 kW/柜非液冷不可

台湾在这关:台湾在散热零组件(风扇、热管、冷板、机壳)本来就有完整供应链,现在不少厂商切进冷板、冷却分配单元(CDU)、整柜液冷集成。台达电是明确的例子,从机柜级到机房级的液冷与电源方案都做,主打高密度 GPU 场景。常见的打法是「服务器+机柜+电源+散热」整套由台湾团队输出。


第 7 关 · 数据中心与电力

它在干嘛:机柜做好了,得放进数据中心,背后还要接上数百 MW(百万瓦)等级的电力。一座大型 AI 数据中心的用电量,可比拟十万户家庭,最大的项目更高。

钱花在哪:前五大云厂商(亚马逊、微软、Google、Meta 等)的资本支出正在猛冲。多家机构推估 2026 年合计约 6,000-6,900 亿美元,同比增长三成上下,光是这个量级就接近美国 GDP 的 2%。这些钱大部分变成 GPU、机房与电力基础建设。

电从哪来,变成新问题:云端大厂早就大量签再生能源购电合约,但 AI 的胃口太大,连核能都被搬上台面。NuScale、Oklo 这类小型模块化反应堆(SMR)业者频频被点名,亚马逊也与 X-energy 合作要在华盛顿州盖 SMR 为大型负载供电。不过务实地看,2030 年之前 AI 机房主要还是靠传统电网加再生能源,SMR 比较像 2030 年之后的长期备胎。

这里有个越来越被强调的转折:AI 的真正瓶颈正从「GPU 数量」转移到「电网与土地」。 在部分地区,电网已经难以再吃下更多上百 MW 等级的数据中心。要把一柜 200 千瓦的机器塞进既有电网,业者只能同时押注更省电的芯片、更高效的光互连,以及更激进的液冷。

台湾在这关:台湾电力结构与核电政策都比较敏感,短期不太可能成为全球 AI 机房最集中的地点。台湾比较像是用「高效电源、不间断电源系统、液冷」这些设备与技术,参与全球数据中心的建设,而不是自己当机房大本营。


第 8 关 · 地缘与出口管制

这一关并不算供应链里的某个物理环节,比较像是罩在前面七关之上的一层规则。谁买得到多少高阶 GPU、谁做得出先进制程,很大程度由美国与盟友的出口法规决定。

2026 年 1 月起的新规:美国商务部把部分中阶 AI 芯片(如 Nvidia H200、AMD MI325X 这类「没到最高规格」的芯片)对中国的审查,从原本几乎一律拒绝的「推定驳回」,改成在严格条件下「逐案审查」。白话讲,就是开了一条附带一堆条件(含课税、第三方测试证明、不得排挤美国本土供应等)的窄门。最高规格的芯片与再出口,多数仍维持严格管制。

要盟友一起夹:美国国会审议中的 MATCH Act,目标是要求荷兰、日本等盟友在限期内跟进对中国的设备出口限制,涵盖 EUV 与较旧的 DUV 浸润式机台,等于连中国想在 7-14 纳米扩产也更难。

台湾在出口框架中的定位:在美国的「AI 扩散」架构下,台湾与多数欧盟国家、日本、韩国被列为第一级(Tier 1),在该框架下不受配额上限限制(台湾仍须维持既有出口管制与合规,并非完全免管制),被官方视为对台湾技术保护制度的认可。

中国的处境:在高阶 GPU 与设备受限下,中国一边自研芯片(如华为昇腾),一边靠模型压缩、蒸馏等手法省算力。研究指出,管制比较像是「拉高成本与延迟」的工具,而不是滴水不漏的封锁。


哪几关最卡脖子?

把八关摊开来看,真正会「掐住整条链」的其实集中在四个环节,而它们在地理上又高度集中,这正是供应链风险被紧盯的地方。

最卡的环节为什么卡主要集中在
先进制程晶圆代工(7 纳米以下)全球高阶芯片几乎都靠这条产线台积电(台湾)
先进封装 CoWoS/CoWoS-L2025-2026 供不应求,决定 GPU 出货量台湾为主
HBM3e/HBM4 内存三家寡占、产能被预订一空韩国领先、美光(美国)追赶
EUV/DUV 光刻设备做先进制程的唯一门票ASML(荷兰)垄断

从供应链风险看,台湾同时握着先进制程和 CoWoS 两张王牌,这两个环节高度集中在单一地区,使它成为全球 AI 芯片供应最受关注的单点风险;荷兰的 ASML 是 EUV 唯一供应者,任何出口政策变化都牵动全球;中国则被卡在设备与高阶芯片进口上,被迫更依赖本地替代,但短期仍难与美国加盟友的生态抗衡。


这条链告诉我们什么

看完八关,可以收敛成三个判断:

第一,AI 的算力竞赛,本质上是一场硬件与产能的竞赛。 模型再厉害,做不出芯片、封不了装、喂不上内存、供不了电,都只是 PPT。所以追 AI 趋势时,盯供应链的瓶颈往往比盯模型发布会更早看出风向。

第二,瓶颈高度集中,台湾产业站在中央。 先进制程和先进封装两个最卡的环节都集中在台湾,这既是台湾产业的战略价值,也是全球最在意的单点风险。理解这件事,才看得懂为什么芯片成为各方资源竞逐的焦点。

第三,下一个天花板可能不是芯片,而是电。 当电网与土地开始追不上算力扩张,谁能解决供电、散热、能效,谁就握住下一轮的关键。核能、液冷、光互连这些「不性感」的环节,反而是接下来值得长期关注的地方。

这篇是供应链的整体导览,之后小企鹅会把每一关(像 CoWoS、HBM、出口管制)拆成更深入的单篇来谈。想先搞懂个别公司的,可以接着看 Nvidia 上下游的客户与生态

延伸阅读