谈 AI 硬件,前面都在讲算力:GPU 多强、内存多快、封装多难。但有一个常被忽略的关卡,正在变成 AI 数据中心的硬限制:热。当一整柜 GPU 的功耗冲破一百多千瓦,怎么把这些热搬走,已经跟算力一样关键。
这篇就把 AI 散热与液冷一次讲白。先看为什么风冷不够用、液冷怎么做,再谈它普及到哪、台湾供应链在哪。这是 AI 硬件供应链一条龙 第 6 关「散热与液冷」的深入版。
为什么 AI 服务器非液冷不可
先用数字感受一下热有多夸张。一颗 B300 GPU 的功耗,市场报道估计上看约 1400 瓦(研究机构 TrendForce 则概括为一千瓦以上);而 NVIDIA 最新的 GB300 NVL72,把 72 颗 GPU 加 36 颗 CPU 塞进一柜,整柜功耗高达约 130 到 142 千瓦。
对照一下:传统机房用空调加服务器风扇,常见大概只压得住每柜 5 到 15 千瓦。产业普遍认为,超过每柜 15 到 25 千瓦之后,纯风冷的设计与耗电就会快速变得困难。AI 机柜动辄冲到 50、100、甚至 130 千瓦以上,风冷的风量、噪音、风扇耗电全都失控。
所以解法很直接:趁热还没扩散到整台服务器,先从芯片旁边把它带走。让冷却液贴到芯片上、直接导热,会比用大量空气间接带热有效得多。这就是液冷登场的原因。
液冷怎么做?三个关键词
液冷听起来高科技,拆开来其实就三个关键词。
直接芯片液冷(冷板式,英文 Direct-to-Chip):把一块金属冷板紧贴在 GPU 上,冷却液流过冷板内部的细小流道,把芯片的热带走。服务器本体不直接碰到液体,导入门槛较低,是目前 AI 数据中心的主流做法。
浸没式(immersion):更激进,直接把整台服务器泡进一种不导电的介电液里,热直接进到液体。散热效率更高,但维修麻烦、材料相容与标准化的门槛也高,普及比较慢。
CDU(冷却液分配单元):液冷系统的心脏。它负责泵送、热交换、控温、过滤,把冷却液稳定地送到每一个冷板,再把吸收的热交给机房的水路或散热设备。没有 CDU,冷板和冷却液就是一滩死水。
核心数据快照
下面的数字帮你抓住「为什么非液冷不可」与「普及到哪」。渗透率为研究机构估计值。
| 项目 | 数值 | 时点/性质 |
|---|---|---|
| 传统企业机柜功率密度 | 约 5-15 kW/柜(风冷可压) | 现况 |
| 纯风冷吃力门槛 | 约每柜 15-25 kW 以上 | 产业共识 |
| GB300 NVL72 整柜功耗 | 约 130-142 kW(全液冷标配) | 2026,NVIDIA/研究机构 |
| AI 数据中心液冷渗透率 | 2024 约 14% → 2025 约 33% | TrendForce 估计 |
| AI 芯片液冷渗透率 | 2026 约 47% | TrendForce 估计 |
| 下一代极端机柜 | Rubin Ultra/Kyber 上看约 600 kW | 2027 展望 |
2026 走到哪:从选配变标配
液冷最大的转变,是它在 2026 年从「进阶选项」变成「默认配备」。
最具代表性的信号,就是 NVIDIA 的 GB300 NVL72:官方直接把它设计成全液冷的整柜架构,不再提供风冷版本。研究机构的渗透率数字也一路往上:AI 数据中心液冷从 2024 年的约 14% 升到 2025 年的约 33%,AI 芯片的液冷渗透率 2026 年估计来到约 47%。技术上,目前以「液对气(L2A)」当过渡主流(冷却液先带走芯片的热,再把热排到空气),2027 年起「液对液(L2L,直接接到机房的冷却水路)」会加速普及。
再往前看更夸张。NVIDIA 在路线图上展示的 Rubin Ultra/Kyber 机柜,整柜功耗上看约 600 千瓦,目标 2027 下半年(量产规格仍可能调整)。这代表散热已经从「装完服务器后的收尾工作」,变成一开始就要跟供电、机柜一起设计的核心问题。
台湾散热供应链:又一个隐形强项
液冷这一关,台湾同样站在关键位置。先说清楚:以下只描述公开的供应链角色,不整理受益股、目标价或买卖时点。
台湾本来在散热零组件(风扇、热管、均热片、机壳)就有完整供应链,现在顺势切进高阶液冷。NVIDIA 的 Blackwell 合作伙伴生态系名单,就公开点名了奇鋐(AVC)、台达电(Delta)等台厂。产业分工上,冷板由奇鋐、双鸿(Auras)等供应,冷却液分配单元(CDU)以台达电为要角,健策则在均热片、热导零件等环节参与。
常见的打法,是「服务器+机柜+电源+散热」整套由台湾团队输出,这也是台湾能从芯片一路吃到整柜系统的原因。这里只做产业地图,不对个股做任何投资判断。
散热其实连着电
最后补一个容易被忽略的连动:散热和供电是绑在一起的。
机柜功耗冲到一百多千瓦、未来上看百万瓦级,既有的供电架构在效率与铜损上开始吃紧。NVIDIA 因此推动 800 伏直流(800 VDC)的数据中心供电架构,目标支持 100 千瓦到百万瓦级的机柜,并宣称能提升效率、大幅减少铜用量。GB300 也在电源端加入储能,把 AI 运算对电网的尖峰需求压低最多三成。
换句话说,当算力越塞越密,真正的天花板正从「芯片」往「散热与供电」移动。这条延伸的故事,会在 供应链总览 的数据中心与电力那一关接着谈。
这一关的重点
看完散热,先记住那条因果链:AI 芯片越来越耗电,一柜功耗冲破一百多千瓦,风冷压不住,于是液冷从选配变成标配。
液冷主要靠三个东西:贴在芯片上的冷板、把整台泡进液体的浸没式,以及调度冷却液的 CDU。普及速度很快,研究机构估计 AI 芯片液冷渗透率 2026 年来到约 47%,NVIDIA 的 GB300 更直接全面液冷。台湾在冷板、CDU、均热片这些环节是供应链要角。
想知道这些发热怪兽长什么样,可以看 Blackwell 是什么;想看整条链八关怎么串,回到 供应链总览。