0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

面向 GB200 NVL72 的液冷 PSU 设计:在极小空间内实现 15kW+ 功率输出的拓扑优化

杨茜 来源:jf_33411244 作者:jf_33411244 2026-03-27 11:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

面向 GB200 NVL72 的液冷 PSU 设计:在极小空间内实现 15kW+ 功率输出的拓扑优化

算力革命与超高功率密度电源的物理边界

随着生成式人工智能(Generative AI)和大语言模型(LLM)参数规模向万亿级别跨越,数据中心基础设施的计算密度和能源消耗正经历前所未有的指数级增长。NVIDIA 发布的 GB200 NVL72 机架级超大规模计算平台,标志着数据中心架构从单节点服务器向“单机架即计算机”(Exascale Computer in a Single Rack)的根本性转变 。

在 GB200 NVL72 的架构中,系统集成了 36 个 Grace CPU(采用 Neoverse V2 核心)和 72 个 Blackwell 架构的 GPU,配备了高达 13.4 TB 的 HBM3e 内存,并提供了 576 TB/s 的内存带宽 。通过规模空前的 NVLink 交换系统(包含 9 个 NVLink Switch Trays),这 72 个 GPU 能够以 130 TB/s 的全对全(All-to-all)无延迟带宽作为一个统一的巨型 GPU 运行,从而提供高达 1.44 Exaflops 的 FP4 稀疏算力和 5,760 TFLOPS 的 FP32 算力 。

这种极端的算力堆叠直接打破了传统数据中心的能源分配模型。现代高密度 AI 负载要求集群在训练或推理期间维持极高的利用率,GB200 NVL72 机架的额定热设计功耗(TDP)攀升至 120kW 至 132kW 之间,其峰值电气设计功耗(EDPp,通常为 TDP 的 1.5 倍)更是高达 192kW 。在如此庞大的能量吞吐下,传统的 12V 集中式配电架构由于 I2R 铜损呈平方级增长,已无法在有限的物理空间内完成电能的有效传输 。因此,数据中心全面转向了 OCP(Open Compute Project)主导的 ORv3 54V(兼容 48V)高压直流母线架构 。

在配电网络(PDN)的演进中,留给电源供应单元(PSU)的物理空间被急剧压缩。GB200 NVL72 整个机架的尺寸被严格限制在 2236mm(高)× 600mm(宽)× 1068mm(深)以内,其中绝大部分空间被 18 个 1U 高度的计算托盘(Compute Trays)、9 个交换托盘以及包含 5000 多根精密铜缆的 NVLink 铜缆背板所占据 。为机架提供电力的 Power Shelves(电源搁板)仅有 8 个 1U 高度的槽位可用 。倾佳电子力推BASiC基本半导体SiC碳化硅MOSFET单管,SiC碳化硅MOSFET功率模块,SiC模块驱动板,PEBB电力电子积木,Power Stack功率套件等全栈电力电子解决方案。

wKgZO2nF98yAWYRRAH9r4iFn-TM066.png

基本半导体代理商倾佳电子杨茜致力于推动国产SiC碳化硅模块在电力电子应用中全面取代进口IGBT模块,助力电力电子行业自主可控和产业升级!

为了在 1U 的极致扁平空间内满足 132kW 的基础供电并实现 N+N 或 N+1 的系统级冗余,传统的 3kW 或 5.5kW 电源模块已无法满足密度要求。电源行业正加速向单模块 15kW 甚至 18kW 的输出功率迈进 。例如,根据 OCP ORv3 标准,1OU 电源搁板的尺寸仅为 28.287 英寸长、21.142 英寸宽和 1.811 英寸高,却需要容纳多个并联的整流模块以提供 18kW 的直流输出 。在此物理约束下,15kW PSU 的功率密度必须突破 100 W/in³,部分先进参考设计甚至达到了 137 W/in³ 。要实现这一目标,仅靠传统的硅(Si)基半导体和风冷散热已触及物理极限,必须在三相交错拓扑、宽禁带(WBG)半导体、磁集成技术以及顶部散热(TSC)液冷结构等多个维度进行跨学科的深度协同与重构 。

参数项 GB200 NVL72 机架级规格 GB200 Grace Blackwell 超级芯片规格
FP4 算力 (稀疏/稠密) 1.44 Exaflops / 720 Petaflops -
FP64 / FP64 Tensor Core 2,880 TFLOPS 80 TFLOPS
FP32 算力 5,760 TFLOPS 160 TFLOPS
GPU 内存与带宽 13.4 TB HBM3E / 576 TB/s 372 GB HBM3E / 16 TB/s
CPU 核心与架构 2,592 核心 / Arm Neoverse V2 72 核心 / Arm Neoverse V2
CPU 内存与带宽 17 TB LPDDR5X / 14 TB/s 480 GB LPDDR5X / 512 GB/s
NVLink 交换带宽 130 TB/s (72-GPU 全对全) 3.6 TB/s
机架整体尺寸 2236mm x 600mm x 1068mm 1U 计算托盘内嵌 2 颗
机架工作与峰值功耗 125kW - 135kW (额定) / 192kW (峰值) 约 2.5kW - 2.7kW (单节点评估)

表 1:NVIDIA GB200 NVL72 与单颗超级芯片的核心电气与计算规格对比

先进高频变换拓扑:从三相交流到 54V 直流的链路解构

在 15kW 的输出功率等级下,单相交流输入会导致严重的电网三相不平衡,并产生无法接受的中性线电流与输入谐波。因此,符合电网规范的 15kW PSU 必须采用三相三线制或三相四线制交流输入(如 380V/400V/480Vac)。电源架构由前级的三相功率因数校正(PFC)和后级的隔离型直流-直流(DC-DC)降压变换器构成,这不仅是对电能的重塑,更是对效率与体积的极致博弈。

wKgZPGnF992AQneRAIM4ACJMniw427.png

三相交错无桥图腾柱 PFC(3-Phase Interleaved Totem-Pole PFC)

传统的三相有源前端(AFE)或交错 Boost PFC 高度依赖于输入侧的全波整流桥。在 15kW 满载工况下,输入交流电流高达数十安培,传统的硅整流二极管前向压降(Vf​)会产生近百瓦的静态导通损耗,这部分热量在 1U 密闭空间内极难散去,直接封死了电源达到 97.5%(80+ Titanium/Ruby 级别)效率的可能 。

为了消除整流桥的导通损耗,无桥图腾柱(Bridgeless Totem-Pole)PFC 成为必然选择。该拓扑将高频开关管与低频整流管混合排列,交流输入直接连接到开关桥臂的中点 。在 15kW 的高功率应用中,单相图腾柱 PFC 面临着极高的电感电流纹波和电磁干扰(EMI)挑战。因此,现代设计采用了三相交错(3-Phase Interleaved)架构 。交错控制使得三个独立的高频桥臂以 120 度的相位差并行工作,不仅成比例地降低了单相器件的电流应力,还通过纹波对消效应(Ripple Cancellation)极大减小了输入侧和输出母线侧的滤波电容体积 。

在控制策略的维度上,AI 服务器的负载具有极端的动态跳跃性。为了在全负载范围内维持最高效率,控制器(如采用 ARM Cortex-M 或 DSP 核心的实时微控制器,例如 G32R501 芯片)执行混合调制策略(Hybrid TCM/CCM Control Strategy)。

重载工况下的连续导通模式(CCM): 当 GB200 处于全速模型训练时,PFC 运行于 CCM 模式。此时电感电流不归零,电流纹波较小,从而有效控制了功率开关管(SiC MOSFET)的导通损耗(Irms2​×RDS(on)​)和高频电感的磁芯饱和风险 。

轻载工况下的三角电流模式(TCM)或临界导通模式(CrCM): 当 AI 节点处于待机或轻载推理时,开关损耗(Psw​)成为主导。此时控制环路切换至 TCM 模式,允许电感电流出现负向反冲,利用负电流抽走开关管输出电容(Coss​)中的电荷,强制实现零电压开通(Zero Voltage Switching, ZVS)。配合切相控制(Phase Shedding,即在轻载时主动关闭一个或两个交错桥臂),可消除冗余桥臂的驱动损耗与开关损耗,使得 15kW PSU 即使在 10% 负载下也能维持 96.5% 以上的转换效率 。

高频三相交错全桥 LLC 谐振变换器与极限同步整流

PFC 级的输出通常为 400V 至 800V 的高压直流母线(DC-Link),需通过 DC-DC 级降压并隔离至 54V 以供给下游的计算背板。对于 15kW 的功率吞吐,传统的相移全桥(PSFB)由于变压器漏感导致的占空比丢失和硬开关特征,无法满足高频高密度的要求 。

全桥 LLC 谐振变换器通过引入谐振电感(Lr​)、励磁电感(Lm​)和谐振电容(Cr​)构成谐振腔,使得初级侧开关管能够实现全负载范围内的 ZVS,次级侧整流管实现零电流关断(ZCS),从根本上消除了开关损耗 。为了承载 15kW 输出(54V 侧额定电流约 277A,峰值可达 300A 以上),单一谐振腔面临着无法承受的次级电流有效值。因此,采用 Δ−Δ 或星型连接的三相交错 LLC 成为最优解。三相交错通过 120 度的相位交错,不仅均衡了热分布,更在次级侧实现了完美的电流纹波对消,使得昂贵且占体积的大容量 MLCC(多层陶瓷电容器)的使用量降低 60% 以上 。

为了进一步压缩变压器体积,必须提升开关频率。得益于第四代高压氮化镓(GaN)功率 IC(如集成驱动与保护的 GaNSafe 器件),其不存在反向恢复电荷(Qrr​=0)且开关速度极快,使得 LLC 的谐振频率可以从传统的 100kHz 推升至 300kHz 甚至 1.2MHz 。

在极高频率和 270A+ 的次级电流下,次级同步整流(Synchronous Rectification, SR)的精确控制成为决定整个电源生死的关键。极小的死区时间误差或不对称的谐振电流,都会导致体二极管导通(引发严重发热)或桥臂直通(引发爆炸)。为此,设计中引入了专用的高性能 SR 控制器(如 NXP 的 TEA1795T 或 TI 的 UCC24630)。这些集成电路具备专用的 VDS​ 检测引脚和极低的关断延迟(Turn-off Latency < 30ns),能够动态跟踪变压器次级波形的畸变,自适应调整驱动信号的宽度。尤其在 GB200 GPU 出现从 20% 到 150%(5A/us 甚至更高)的负载电流阶跃瞬态时 ,SR 控制器能够立刻启动高速关断电路,有效防止能量从 54V 母线向初级侧倒灌的反向电流 。

高频磁集成与矩阵变压器设计

在 1U 尺寸的 15kW 电源中,磁性元件(PFC 电感、LLC 谐振电感和主变压器)占据了最大的体积份额 。传统的绕线式磁件在高频下会由于趋肤效应(Skin Effect)和邻近效应(Proximity Effect)产生极大的交流铜损(Rac​ 显著高于 Rdc​)。

为了实现 100 W/in³ 以上的功率密度,15kW 电源广泛采用基于印刷电路板(PCB)的平面变压器(Planar Transformer)与矩阵磁集成技术 。通过将初级和次级绕组交替层叠(Interleaved Winding)于多层厚铜 PCB 中,不仅完美解决了高频电流的集肤深度问题,还能精确且稳定地控制 LLC 拓扑所需的漏感(作为谐振电感 Lr​ 使用,消除独立电感体积)。

在三相交错 LLC 中,进一步采用矩阵变压器(Matrix Transformer)结构,将多个小型磁芯阵列化组合。通过巧妙的磁路设计,使相邻变压器磁腿中的高频磁通量在相位相差的激励下产生磁通抵消(Flux Cancellation)。这一物理现象极大地降低了核心磁芯的峰值磁通密度(Bmax​),从而成倍缩减了铁氧体磁芯的截面积并降低了高频铁损。结合特定的原副边法拉第屏蔽层(Faraday Shield)设计,该磁集成方案还能削减初次级之间的寄生电容,使得共模噪声(Common-mode Noise)降低近 18 dB,从源头上缩小了输入端 EMI 滤波器的体积 。

宽禁带半导体引擎:SiC MOSFET 的底层物理与参数解析

实现高频、高压、高功率密度电力电子变换的核心基石是宽禁带(WBG)半导体材料 。在 15kW 三相输入(如 480Vac)的应用中,前级图腾柱 PFC 桥臂承受的峰值电压和电压应力常超过 700V 至 800V,这超出了 GaN 晶体管的经济安全工作区,使得 650V 或 1200V 级碳化硅(SiC)MOSFET 成为绝对的主力 。

碳化硅材料凭借比传统硅(Si)高 10 倍的击穿电场强度和高 3 倍的热导率,允许器件使用更薄的漂移区,从而在承受极高耐压的同时维持极低的导通电阻(RDS(on)​)。以基本半导体(BASiC Semiconductor)的第三代(B3M 系列)SiC MOSFET 为例,其微观器件结构与动态参数揭示了 WBG 半导体如何赋能 GB200 的极致供电网络 。

沟槽栅与平面栅的耐温博弈:热稳定性考量

当前 SiC MOSFET 的晶圆制造工艺主要分为平面栅(Planar)和沟槽栅(Trench)两大阵营。沟槽栅工艺(如英飞凌的 M1H 或罗姆的 G4 世代)通过将栅极刻蚀在半导体内部,消除了 JFET 区域的电阻,从而在室温(25℃)下获得了更低的品质因数(FOM)。然而,在 15kW 电源内部极高的热流密度下,这种结构在高温表现上存在隐患。

根据详尽的静态测试数据对比(参见表 2),对于 1200V/40mΩ 级别的器件:采用沟槽工艺的 Infineon IMZA120R040M1H,其 RDS(on)​ 在结温(Tj​)从 25℃ 升高到 175℃ 时,从 39mΩ 剧增至 77mΩ;ROHM 的 SCT3040KR(沟槽栅)也从 40mΩ 飙升至 78mΩ,阻抗恶化近一倍 。这种高温下急剧退化的特性直接导致器件在持续大负载工作时电流额定值迅速下降,增加了热失控(Thermal Runaway)的风险 。

相反,基本半导体 B3M 系列(B3M040120Z)采用优化的平面栅技术路线,其在 25℃ 时的导通电阻为 40mΩ,而在 175℃ 极端高温下,仅温和地上升至 70mΩ 。在 GB200 NVL72 这种满载运行的紧凑型机架中,PSU 内部局部环境温度极高,B3M 这种更加平缓的温度系数意味着更稳定的导通损耗控制和更宽泛的安全工作区(SOA),为系统带来了不可或缺的鲁棒性 。

品牌与型号 工艺结构 标称 RDS(on)​ (@25℃) 高温 RDS(on)​ (@175℃) VGS(th)​ (@25℃) 品质因数 FOM (mΩ⋅nC)
BASIC (B3M040120Z) 平面栅 40 mΩ 70 mΩ 2.7 V 3400
CREE (C3M0040120K) 平面栅 40 mΩ 68 mΩ 2.7 V 3960
Infineon (IMZA120R040M1H) 沟槽栅 39 mΩ 77 mΩ 4.2 V 1521
onsemi (NTH4L040N120M3S) 平面栅 40 mΩ 80 mΩ 2.9 V 3000
ROHM (SCT3040KR) 沟槽栅 40 mΩ 78 mΩ 4.0 V 4280

表 2:业界主流 1200V 40mΩ 级 SiC MOSFET 核心静态参数与高温温漂对比

寄生电容优化与兆赫兹级的动态损耗控制

在图腾柱 PFC 高频桥臂和 LLC 谐振变换的快速换流过程中,器件的动态电容(Ciss​、Coss​、Crss​)直接决定了开关瞬态损耗(Eon​、Eoff​)。通过精密的元胞布局和高阶外延掺杂技术,B3M 系列极大地改善了米勒电容(Crss​,仅为 6 pF),提高了 Ciss​/Crss​ 的比值。这种参数结构的优化不仅加快了充放电速度,更是在桥式拓扑中建立起极强的抗串扰(Crosstalk)能力,有效防止了由极高的 dv/dt 诱发的寄生导通风险 。

如表 3 所示的 800V/40A 双脉冲测试(Double Pulse Test)结果表明,BASIC B3M040120Z 的关断延迟时间(Td(off)​)仅为 35.52 ns,关断损耗(Eoff​)为 162 μJ,开关边沿极其陡峭(dv/dt 接近 60 kV/μs)。特别是在应对 PFC 桥臂硬开关(CCM 模式)或寄生体二极管续流时,B3M 表现出了极具优势的反向恢复特性,其反向恢复电荷(Qrr​)被压榨至仅仅 0.28 μC 。由于几乎消除了少数载流子积聚问题,SiC MOSFET 使得 15kW PSU 的高频化不再受限于开关热障,从而支持整个电源模块在 1U 空间内实现体积的大幅瘦身。

动态参数 (测试条件:VDS​=800V,ID​=40A) BASIC (B3M040120Z) CREE (C3M0040120K) Infineon (IMZA120R040M1H)
开通延时 Td(on)​ (ns) 12.4 14.7 14.4
上升时间 Tr (ns) 29.8 27.2 14.08
开通损耗 Eon (μJ) 663 630 600
关断延时 Td(off)​ (ns) 35.52 50.87 39.36
关断下降时间 Tf (ns) 10.8 13.4 14.0
关断损耗 Eoff (μJ) 162 230 170
反向恢复电荷 Qrr (μC) 0.28 0.26 0.25

表 3:室温 (25∘C) 下双脉冲动态开关性能横向对比

经时击穿(TDDB)与数据中心级的严苛可靠性

AI 数据中心的算力底座要求“永远在线”(Always-on),任何 PSU 模块的非预期宕机都可能导致正在进行的大模型训练 Checkpoint 丢失或推理服务中断 。这要求底层的 SiC MOSFET 具备极高的栅极氧化层本征可靠性 。

基本半导体针对其 B3M/B2M 系列进行了极其严苛的经时击穿(Time-Dependent Dielectric Breakdown, TDDB)寿命外推预测。在 175℃ 的极限环境温度下,通过向栅极施加极高电场应力(如 Eox​=9.2MV/cm,相当于 VGS​=46V)加速老化,数据证明该系列氧化层没有发生早期失效。根据 TDDB 物理模型推演,在推荐的正常驱动电压(VGS​=18V∼20V)下,器件的失效前平均时间(MTTF)超过了 108 甚至 2×109 小时(大于 1.1 万年至 22 万年)。叠加针对高温反偏(HTRB)、高温高湿反偏(H3TRB)超过标准 4 倍时长(2500小时,1320V 应力)的加严测试,确保了即便在 GB200 液冷机柜 45℃ 进水温度以及内部复杂热应力交变环境下,器件的漏电流(IDSS​)和阈值电压漂移仍牢牢控制在不足 5% 的安全范围内 。

顶部散热(Top-Side Cooling):打破封装热阻与寄生电感双重壁垒

在确立了高效率拓扑与 SiC/GaN 半导体的电气基础后,如何将高频开关产生的高密度热量导入冷却系统,成为 15kW PSU 设计中最棘手的工程难题。

在传统的 TO-247(通孔插装)或 D2PAK、TOLL 等底层表面贴装(Bottom-Side Cooling, BSC)封装中,热流的传导方向是向下的。热量必须从半导体裸片(Die)向下穿越铜引线框架、焊料层,再强行穿过电源印制电路板(PCB,包括铜箔与绝缘 FR4 玻纤树脂),最终到达底部的散热器或冷板 。即使采用高导热的金属基板(IMS)或嵌铜 PCB,这种冗长的导热路径也会产生巨大的结到环境热阻(Rth(j−a)​)。在 15kW 输出下,单颗 SiC MOSFET 的发热量可达数十瓦,PCB 介质层的热阻会导致严重的局部热点(Hotspots),进而引发热失控 。

TOLT、T2PAK 等 TSC 封装的革命性优势

为了彻底移除 PCB 这一“热绝缘体”,半导体行业(如 Wolfspeed、Infineon、onsemi、WeEn 等)在近年来大规模商用了顶部散热(Top-Side Cooling, TSC)封装技术,典型的代表如 TOLT(TO-Leaded Top-side cooling)、T2PAK 和 Q-DPAK 等 。

TSC 封装在内部引线框架结构上进行了大胆的倒置倒装设计(Die-up orientation),半导体裸片直接贴装在封装顶部裸露的金属散热焊盘上 。这种机械结构的翻转带来了三个决定系统功率密度的颠覆性优势:

极速缩短热传导路径,热阻减半:顶部金属直接涂抹热界面材料(TIM)并贴合液冷冷板。热量完全不经过 PCB,结到外壳(顶面)的热阻(RθJC​)实现了极大幅度的下降。根据实验验证,相较于传统的底层散热 SMD 封装,TOLT 或类似的 TSC 封装将整个热阻网络降低了约 50% 。这使得 15kW 电源能够在 1U 的扁平空间内,仅仅依靠单面冷板就能够压制数十颗高频开关管的温升。

解锁 PCB 双面利用率,极限压缩物理体积:在传统 BSC 设计中,PCB 的背面被巨大的散热器占据,几乎无法布置任何元器件。采用 TSC 封装后,冷板置于器件上方,电源 PCB 的底层空间被完全释放。电源工程师得以将厚重的磁性元器件、庞大的直流母线电容以及 TSC 功率器件布置在顶层,而将复杂的 DSP 实时控制器、低压信号隔离驱动器(如 STGAP2SICS)、以及辅助电源模块密集地布局在底层 。这种三维立体的空间利用率,是 15kW 电源模块功率密度突破 100 W/in³ 的物理保障 。

电源回路寄生电感的极致控制:传统 TO-247 封装拥有极长的引脚,会引入高达十几个甚至几十纳亨(nH)的寄生电感。在高频、高 di/dt 的开关瞬间,根据 V=L⋅di/dt 公式,这些电感会产生严重的电压过冲(Voltage Overshoot)和高频震荡(Ringing)。TOLT 和 T2PAK 属于低外形尺寸(Low-profile)的表面贴装器件,引脚极短,并且大多配备了独立的开尔文源极(Kelvin Source)引脚以解耦驱动回路与功率回路 。据高频热电耦合仿真与实测证实,基于 TSC 封装的电源环路总寄生电感(Lloop,G​)可被轻易控制在 7nH 至 15nH 的极低水平 。这不仅赋予了 SiC/GaN 器件更平滑的开关轨迹,也极大减轻了针对高频 EMI 滤波电路的设计压力。

液冷冷板集成系统:微通道传热与热机应力解耦

当高效拓扑、宽禁带半导体与 TSC 封装将热量全部汇聚于电源模块顶部后,最终决定 GB200 机柜能否稳定释放 132kW 狂暴算力的关键,落在了冷却分配单元(CDU)与模块内部液冷冷板(Cold Plate)的流体力学与热力学设计上 。

传统的风冷数据中心通常依靠高速风扇强制空气对流。然而,对于 15kW 的 1U 电源,空气的热容量和导热系数实在太低,风扇必须以极高的转速运行,不仅带来震耳欲聋的噪声,还会消耗高达整个数据中心电力 40% 的能源用于维持冷却(PUE 极高)。液体(如去离子水与乙二醇的混合液)具有比空气高数十倍的导热系数和数千倍的体积比热容 。因此,GB200 NVL72 彻底抛弃了系统级风扇,采用全封闭的直接芯片级(Direct-to-chip, DLC)与电源级液冷循环架构 。

强化换热:微通道与微针翅冷板设计

15kW 电源的顶部被一块精密加工的金属冷板所覆盖,所有发热剧烈的元件(包括 TSC 封装的 SiC/GaN 器件和矩阵变压器的磁芯表面)都紧贴其下 。根据牛顿冷却定律(Newton's law of cooling):

q=hA(Ts​−Tf​)

要带走 15kW 变换过程中产生的数百瓦热损耗(以 97.5% 效率计算,热损耗约为 375W)并保持较低的表面温度(Ts​),必须从换热面积(A)和对流换热系数(h)入手 。

现代冷板摒弃了传统的粗通水管路,内部采用高精度的微通道(Mini-channels)或微针翅(Pin-fin)结构 。例如,采用蛇形流道(Serpentine flow channel)或梳状分流道,将流体的宏观流动切割成无数微细流束,极大地放大了固液接触面积 A 。同时,狭窄的通道迫使冷却液以高雷诺数(Reynolds number)流过,彻底破坏了热边界层,使对流换热系数 h 呈几何级数跃升 。

这种极致的换热能力,使得 Powerland 等先进制造商的 15kW 液冷电源能够支持高达 45°C 的温水进水冷却(Warm Water Cooling)。温水冷却不仅省去了数据中心昂贵的压缩机制冷(Chiller),允许直接使用冷却塔或自然环境空气(Free Cooling)将热量排入大气,极大地降低了 PUE 和碳足迹 ,而且在 45°C 的恶劣进液条件下,电源依然无需做任何降额(De-rating)处理,能够全天候满负荷输出 15kW 能量 。

界面热机解耦:Liquid Gap Filler 的应用

冷板与 TSC 功率器件之间的物理接触并非绝对平滑,存在微观的粗糙度和高度公差。必须填入热界面材料(TIM)以排空绝热的空气隙 。

在早期的高密度设计中,常使用高导热的硅胶垫片(Gap Pads)。然而,垫片往往需要数十磅的机械压力才能发生形变以实现低接触热阻 。在 15kW PSU 内部,多个 SiC MOSFET 呈阵列状排列,巨大的螺丝压紧力会传递至下方的 PCB 绝缘层。考虑到 PCB 在承载 270A 巨幅交变电流时本身就会产生内部焦耳热和膨胀,额外的硬性机械压力极易导致 PCB 发生不可逆的翘曲(Warpage),拉断层间过孔,甚至挤裂脆弱的半导体裸片 。

因此,面向 GB200 的高可靠性要求,液态导热间隙填充材料(Liquid Gap Filler)被广泛采纳 。这种聚合物在点胶时呈现流体状态,能够以极低的压力完美填充冷板与 TOLT 器件顶部的所有不规则微隙,随后在常温或加温下固化成具有一定弹性的导热层。它不仅实现了远优于厚垫片的极低热阻,更在机械力学上彻底解耦了冷板的刚性应力与 PCB 的形变应力,确保了系统在成百上千次高频热循环(Thermal Cycling)后的力学完整性 。

CDU 架构、盲插与容错防漏液机制

在 GB200 NVL72 机架级别,多台 15kW 电源并联插入背部的汇流排(Busbar)上,并与机柜级流体歧管(Manifolds)相连。整个系统由机架内的 4U 尺寸、容量高达 250kW 的冷却液分配单元(CDU)驱动,采用冗余的双热插拔水泵维持流体循环 。

由于 54V 母线和水路紧密耦合,任何微小的冷却液渗漏都将导致灾难性的拉弧或短路。因此,15kW 液冷电源不仅采用了具备自密封防滴漏功能的液冷盲插接头(Blind-mate fluid connectors),方便运维人员在不停机状态下进行热插拔(Hot Swap)替换,更在机箱内部署了高灵敏度的漏液检测传感器网络 。

这些传感器实时监测模块底部的液体积聚情况或湿度异常,并将数据接入 OCP 标准的电源控制管理协议(如 PMBus 或是 DMTF Redfish API)中 。一旦发生泄漏微兆,微控制器能够以毫秒级的速度封锁 PFC 和 LLC 驱动脉冲,主动切断内部断路器(E-Fuse),并通过机架管理控制器(RMC)关断该电源支路的水阀,从而将故障物理隔离,确保整个 192kW 算力机架的安全运行不受影响 。

结论:软件定义与全数字化前馈控制的最终闭环

要在这个高度集成的 1U 空间内,使三相 PFC、高频 LLC、微通道冷板与碳化硅晶体管和谐共舞,最后不可或缺的是全数字化的高阶控制大脑 。

在 AI 大模型训练(如使用 Mixture-of-Experts 架构)或高吞吐量推理过程中,GB200 超级芯片的负载不是平稳的,而是呈现剧烈的脉冲式阶跃特性(例如,电流在数微秒内从数十安培暴增至满载)。这种极端的 di/dt 瞬态冲击对 15kW 电源构成了严峻考验。通过部署高性能的实时多核 DSP(如基于 C2000 或类似架构的数字电源控制器),15kW PSU 实施了具有预测能力的前馈控制(Feed-forward Control)策略 。控制器能够以纳秒级的 ADC 采样率监测 54V 母线电压的微小跌落,并在下一个开关周期立即提高 PFC 占空比并调低 LLC 谐振频率。这种快速的能量前瞻性注入,结合并联系统高精度的下垂均流(Droop Current Sharing)算法,使得 4 台并联的 15kW 电源能够像单一实体一样稳定输出 60kW 级的不间断直流能量 。

面向 NVIDIA GB200 NVL72 的 15kW+ 液冷 PSU 设计,并不是对传统服务器电源的简单按比例放大。它是一场融合了宽禁带半导体底层材料科学(SiC 零反向恢复与高温稳定性)、三相无桥交错拓扑电磁学(ZVS 软开关与矩阵磁集成)、三维结构工程学(TSC 顶部散热与液态界面材料)以及工程热物理学(微通道高雷诺数换热)的系统级颠覆。正是这些跨学科突破的紧密交织,才使得人类能够将 15kW 的澎湃动力塞入仅仅 1U 的狭小金属匣中,为未来通向通用人工智能(AGI)的百亿亿次计算宏伟蓝图,筑牢了不可撼动的能量基石。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电源
    +关注

    关注

    185

    文章

    18969

    浏览量

    264427
  • PSU
    PSU
    +关注

    关注

    0

    文章

    56

    浏览量

    12526
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从AI模型到智算中心视角看真正的超节点系统

    英伟达凭借其 GB200、300 NVL72 机架系统,全球多个AI技术前沿地区已实现大规模出货与应用,成为业内首家也是少数能将“超节点”概念从理论推向极致工程化实践的公司。
    的头像 发表于 02-04 14:15 736次阅读
    从AI模型到智算中心视角看真正的超节点系统

    英伟达Rubin平台引入微通道冷板技术,100%全液冷设计

    在性能上实现了质的飞跃,更凭借全液冷架构彻底革新了散热体系,为高功耗 AI 芯片提供了高效且可靠的温控解决方案。   Rubin 平台:液冷散热的全面升级   Rubin NVL72
    的头像 发表于 01-19 07:15 1.4w次阅读
    英伟达Rubin平台引入微通道冷板技术,100%全<b class='flag-5'>液冷</b>设计

    Supermicro宣布支持即将推出的NVIDIA Vera Rubin NVL72与HGX Rubin NVL8,并扩大机柜制造产能,提供更佳的液冷AI解决方案

    Supermicro通过其数据中心建构组件解决方案(Data Center Building Block Solutions®,DCBBS)、先进的直接液冷(DLC)技术,以及美国的内部设计与制造
    的头像 发表于 01-07 16:49 881次阅读
    Supermicro宣布支持即将推出的NVIDIA Vera Rubin <b class='flag-5'>NVL72</b>与HGX Rubin <b class='flag-5'>NVL</b>8,并扩大机柜制造产能,提供更佳的<b class='flag-5'>液冷</b>AI解决方案

    1.6 kW Titanium PSU:高效服务器电源解决方案

    EVAL_1K6W_PSU_CFD7_QD 1.6kW钛金PSU.pdf 背景与系统概述 近年来,开关模式电源(SMPS)的发展趋势是优化
    的头像 发表于 12-19 11:30 638次阅读

    明德源能数据中心(N+1)²架构200kW一体化UPS重磅发布

    AI大模型与智算需求爆发式增长的今天,算力正以指数级速度重塑产业格局。英伟达最新推出的GB200单个机柜的功率大约在 120 kW,而GB
    的头像 发表于 12-05 15:33 783次阅读

    电压放大器芯片散热驱动液冷系统实验中的应用

    拓扑优化方法设计高效液冷流道,最终通过实验证明该系统相比传统散热方式具有更优异的冷却效果和热均匀性,为电子设备散热提供了一种创新的解决方案。 实验目的:通过压电微泵驱动下冷却液
    的头像 发表于 11-28 15:31 626次阅读
    电压放大器<b class='flag-5'>在</b>芯片散热驱动<b class='flag-5'>液冷</b>系统实验中的应用

    200W 以上功放芯片应用介绍和发展趋势

             200W 以上属于中高功率范畴,需解决 “功率提升与损耗控制、散热与可靠性” 两大核心矛盾,技术路径集中以下 5 点: 1.
    的头像 发表于 11-14 11:25 1210次阅读

    数据中心PSU,迈向12kW

    数据中心PSU,迈向12kW   电子发烧友网报道(文/梁浩斌) 随着AI算力芯片功耗不断提高,服务器PSU(电源供应单元)需要在原有的空间内实现
    的头像 发表于 09-22 02:40 8357次阅读
    数据中心<b class='flag-5'>PSU</b>,迈向12<b class='flag-5'>kW</b>

    Supermicro开始大批量交付NVIDIA Blackwell Ultra系统和机架即插即用数据中心级解决方案

    上市。目前,Supermicro 正向全球客户交付支持即插即用 (PnP) 的 NVIDIA HGX B300 系统和 GB300 NVL72 机架。
    的头像 发表于 09-17 17:00 1044次阅读

    伟创力专为英伟达打造的电源架系统有何亮点

    GB300 NVL72平台设计,支持高达72颗Blackwell Ultra GPU。该系统不仅具备领先能效, 还面向未来 800VDC数据中心架构, 助力 AI 工厂迈向1兆瓦级机
    的头像 发表于 08-13 12:40 3799次阅读

    可编程电源有哪些温度控制措施?

    )。 优点:降低噪音(40dB以下),延长风扇寿命。 风道优化: 设计进风口和出风口,避免热空气回流(如进风口底部,出风口顶部)。 液冷与相变冷却
    发表于 06-25 14:56

    功率超198kW,AI服务器电源对元器件提出了哪些要求?

    芯片GB200功率到2700W,是传统服务器电源的5-7倍,但其面临的挑战同样不小。 超高功率需求与空间限制。 AI服务器(如搭载英伟达Blackwell B100/B
    的头像 发表于 06-17 10:36 1497次阅读
    总<b class='flag-5'>功率</b>超198<b class='flag-5'>kW</b>,AI服务器电源对元器件提出了哪些要求?

    高密度ARM服务器的散热设计

    ,散热效率比风冷提升50%,支持单机柜15kW+功率密度,PUE降至1.2以下,并实现余热回收利用。 高风压风机系统‌:针对复杂风道环境,采用静压200-500Pa的风机,穿透服务器内
    的头像 发表于 06-09 09:19 1031次阅读
    高密度ARM服务器的散热设计

    数据中心电力架构革命!英伟达强推800V HVDC,2年后量产

    来自三个方面,一是空间限制。据英伟达介绍,目前NVIDIA GB200 NVL72或NVIDIA GB300 NVL72配备多达八个电
    的头像 发表于 05-27 00:13 1w次阅读
    数据中心电力架构革命!英伟达强推800V HVDC,2年后量产

    200 kVA/L逆天功率密度!稳定输出600kW!这款逆变器是怎么做到的?

    的问题。 来源:Fraunhofer IZM   据介绍,Dauerpower逆变器可以提供可持续输出的强大动力,长时间运行时可以保持约600kW的稳定输出,而在短时间爆发模式下甚至
    的头像 发表于 05-12 09:31 6487次阅读
    <b class='flag-5'>200</b> kVA/L逆天<b class='flag-5'>功率</b>密度!稳定<b class='flag-5'>输出</b>600<b class='flag-5'>kW</b>!这款逆变器是怎么做到的?