20个关键术语
AI工作负载正在重新定义现代数据中心的供电需求。超高的电流需求、日益垂直的供电路径以及先进的散热架构意味着如今的电源工程师必须掌握远超传统DC/DC转换的知识。
本篇指南将分三个部分解释对电源系统产生影响的20个关键术语:
1. 供电架构及其拓扑结构
2. 系统控制、保护和数字化优化
3. 影响电源设计的AI、散热和系统级趋势
1. 塑造AI系统的核心供电架构
现代AI硬件消耗着非常高的功率,通常每个处理器高达数千瓦,并且需要经过复杂的多级转换路径。理解这一流程背后的架构是AI服务器电源设计的基础。
HVDC是设备内部用于为高压DC/DC转换器供电且高于安全特低电压(SELV, Safety Extra-Low Voltage)等级(通常 >60 Vdc)的直流母线电压,它可以提高转换效率并支持更高电流的负载,比如来自AI加速器。典型例子包括±400 V和+800 V。随着机架功率超过 30-60 kW,采用±400 V或+800 V的HVDC成为一个高效的选择。较低的输电电流可以减少铜损、缩短电缆尺寸并减少电力到达服务器之前的转换级数。
IBA – 中间母线架构
IBA是使用48 V或12 V中间母线为电压调节模块供电的数据中心供电方案。系统通常从HVDC过渡到IBA,这是一种阶梯式供电方式,其中电力在进行本地调节前先被转换为稳定的中间电压。在AI服务器中,出于安全性和效率的考虑,这种中间电压通常为48-54 V。
DCX – 直流变压器
DCX是可在高功率下提供高效母线功率转换的隔离式、固定比率DC/DC转换器。作为基于HVDC架构的关键组件,DCX利用隔离和固定比率转换在不同电压等级之间传输电力。DCX能在最终稳压之前让高功率、高效率的电力分配到机架或服务器机箱的更深处。
LLC – 电感-电感-电容谐振转换器
LLC是在电源中为实现低噪声和高密度而使用的高效谐振转换器。LLC转换器广泛用于前端或中间级,以在各种负载条件下实现高效率。LLC的软开关特性使其成为AI环境严苛散热条件的理想选择。
VRM – 电压调节模块
VRM是为处理器或集成电路(IC)提供精确稳压电源的模块。AI加速器需要数百甚至数千安培的亚伏级电源。VRM是最终稳压级,可将该电源直接提供给xPU封装(CPU/GPU/NPU等,参见第3节)。该模块的瞬态响应能力是AI计算板卡最关键的性能要素之一。
TLVR – 跨电感电压调节器
TLVR是采用耦合电感的先进电压调节拓扑结构,可为高电流CPU供电。TLVR是新一代VRM架构,可在高电流下提供更快的瞬态响应和更高的效率。随着AI加速器带来极端负载阶跃,TLVR的设计变得越来越重要。
VPD – 垂直供电
VPD是可将电流直接从电路板边缘输送到高电流专用集成电路(ASIC)或显卡(GPU)的电源架构。为了克服横向印刷电路板(PCB)布线的限制,VPD通过中介层或封装层垂直布线。通过缩短电源路径,VPD提高了配电效率并降低了IR压降,这对于高电流AI处理器至关重要。
TDP – 热设计功耗
TDP是设备在典型工作负载下持续耗散的最大功耗。电源工程师必须了解TDP,因为它定义了每个AI处理器的持续热极限,从而影响功率预算、模块布局和调节器密度。更高的TDP意味着电气设计和散热设计之间更紧密的耦合。
CESS – 电容式储能系统
CESS是一种本地能量缓冲系统,它利用高容量储能器件(例如超级电容器)来吸收或提供快速的负载瞬变,从而在高性能电源系统(例如AI加速板卡)中电流突变期间稳定电压。通过在负载附近吸收和释放电荷,CESS可以减轻上游转换器的压力并稳定电源分配网络(PDN)。
PDN – 电源分配网络
PDN是一种分层电源分配系统。PDN涵盖从机架馈电经由VRM到硅片电源凸点的整个电气路径。设计低阻抗的PDN对于维持电压稳定性以及防止AI工作负载的性能下降至关重要。
这些概念共同构成了现代AI电源分配的核心结构。
2.AI电源系统中的系统控制、遥测与保护
由于AI加速器会产生高度动态而且有时难以预测的电流波形,现代电源系统必须依靠智能控制接口、监测能力以及稳健的保护机制来确保系统的安全与稳定运行。
PMBus – 电源管理总线
PMBus是用于电源转换器和监测设备的数字通信接口标准。PMBus可为DC/DC转换器提供实时配置与遥测功能。它使电源设计师能够监测AI集群中数千个节点上的电压、电流、温度、故障状态及各项性能指标。
AVS – 自适应电压调节
AVS使xPU(包括CPU、GPU、NPU等,详见第3节)能根据当前工作负载或芯片运行状态发出精确的电压调节请求。这不仅能降低功耗、提升能效比,还能使AI推理与训练任务中常见的快速负载变化变得更稳定。
DLC – 动态负载补偿
动态负载补偿通过调节控制环路行为并应用前馈技术,在快速负载瞬变期间稳定转换器的输出电压。当AI加速器在微秒级时间内从空闲状态切换至满载状态时,DLC有助于防止电压出现下冲或上冲现象,确保PDN及VRM模块的运行始终维持在容许误差范围内。
OCP – 过流保护
OCP保护电源转换器、母线以及下游设备免受短路或故障状态等过流事件的损害。在AI服务器中,尤其是那些采用多相VRM架构、输出电流高达数百安培的系统,快速且协同一致的OCP响应机制至关重要,它是防止故障逐级扩散、引发连锁反应的必要保障。
3.推动供电需求增长的AI、散热和系统级趋势前沿专项技术攻坚探讨
要针对AI工作负载设计电源系统,工程师必须了解那些决定电气设计极限的计算与散热因素。这些系统级趋势影响从瞬态特性到整机柜总功耗的每个环节。
LLM – 大语言模型
LLM是一种基于海量数据集进行训练,专用于生成式或分析式语言任务的AI模型。LLM(例如GPT级模型)对计算资源有着极高的需求,因此也耗电巨大。其突发性强且高度并行的工作负载特性,直接决定了VRM、PDN以及本地储能系统必须能够应对的瞬态特性。
xPU – CPU / GPU / TPU / NPU / IPU / FPGA
这是一个通用术语,涵盖了现代AI系统中协同工作的所有类型计算加速器,包括CPU(中央处理器)、GPU(图形处理器)、DPU(数据处理器)、TPU(张量处理器)、IPU(智能处理器)以及其他各类处理器。
HBM – 高带宽存储器
HBM是一种采用3D堆叠技术的存储器,专为AI/HPC(高性能计算)加速器提供极高的带宽。HBM会显著提升xPU周边的热密度,并需要严格调控的低电压供电轨。由于其在物理位置上靠近计算核心,因此会直接影响VRM的布局选址以及电源级组件的散热设计约束。
D2C – 直达芯片式散热
D2C将液冷直接输送至处理器封装上的冷板。这种散热方式能够大幅提升允许的TDP上限,进而决定了VRM和PDN必须提供的电能总量,同时也决定了散热设计与电气设计之间耦合紧密度的要求。
CDU – 冷却液分配单元
CDU调节冷却回路内的流量、压力和温度。其性能表现直接影响到系统允许的电气负载上限、VRM的工作温度以及整个系统的运行效率。
PUE – 电源使用效率
PUE是衡量数据中心效率的核心指标,是设施总耗电量除以IT设备耗电量的值。转换器效率、VRM设计、PDN优化以及液冷技术的改进均有助于在大规模应用中提升PUE。
结论
AI革命建立了一个全新的环境,在其中电力电子、计算架构、散热技术以及系统级优化已变得密不可分。掌握这20个基础术语,能为工程师提供所需的知识储备,帮助他们针对当今日益严苛的AI工作负载设计并扩展可靠、高效的电源系统。
随着架构的不断演进,开始出现更高的TDP、更密集的PDN、更先进的VRM和VPD、液冷技术以及HVDC配电方案,熟练掌握现代电源设计的专业术语已变得至关重要。
为了助您持续提升专业能力,我们编写了业内最全面且持续更新的技术术语表之一。您可以将Flex Power Modules提供的这份完整的技术缩略语表添加至书签以便日后查阅参考,从而加深理解,并紧跟新兴电源设计趋势的最前端。
-
转换器
+关注
关注
27文章
9445浏览量
156906 -
AI
+关注
关注
91文章
40941浏览量
302524 -
电源系统
+关注
关注
3文章
815浏览量
39680
原文标题:每个赋能AI革命的工程师都必须了解的20个术语
文章出处:【微信号:伟创力电源,微信公众号:伟创力电源】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
别再被晶振术语绕晕!大白话版解读来了
浅析电源EMI产生机理
20KVA UPS电源全解:从中型数据中心到关键产线专业选型避坑指南
如何避免电能质量在线监测装置的突跳异常数据对设备产生影响?
直流滤波器 保障直流系统稳定运行的关键
环境干扰可能会对电能质量在线监测装置的哪些数据产生影响?
时间同步问题可能会对装置的哪些方面产生影响?
IEC 62353中常用的术语和定义
普源示波器DHO800系列电源噪声测试的5个关键步骤
普源示波器DHO5108电源噪声测试的5个关键步骤
对电源系统产生影响的20个关键术语
评论