0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

算力即电力:当单机柜功率突破100kW,谁在守护AI心脏的每一次跳动?

珠海芯森电子 2025-12-24 17:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

时间来到了2025年末,DeepSeek发布了最新的V3.2模型,今年可谓是AI算力狂飙的一年,从生成式AI到医学成像远程AI问诊等应用,AI模型参数越来越大,各大大厂的大模型训练都在抢GPU。但是算力的尽头是能源,像英伟达GB200这样超级芯片带来超算的同时产生巨大的能量消耗,迫使单机柜功率从10kW向100kW甚至更高迈进,其背后的能源基础设施也面临着极限压力。如果说GPU是AI的大脑,那么电流就是流淌的血液,没有精准的监测,算力巨人随时可能因供血异常而倒下。

wKgZO2lLr4OAXhbFAAkQFfhCxxc364.png

100kW是什么?

过去一个标准42U AI服务器机柜的功率通常在3kW-5kW左右,相当于2台家用挂式空调同时运行。现在的AI算力中心,AI大模型的训练需要多个GPU协同工作,随着NVIDIA Blackwell(如GB200 NVL72)等架构的问世,从下表(来源NVIDIA官网)可以看出,仅Blackwell单个GPU功耗就达1200W以上,如果部署NVL36或者NVL72(72张GB200),整柜系统的TDP将直接飙升至70kW - 140kW(72×1.4kW=100.8kW)。用直观的对比,一个100kW的机柜,其耗电量可以支撑50个普通家庭的日常用电。

特性

Hopper

Blackwell

Blackwell Ultra

制造工艺

TSMC 4N

TSMC 4NP

TSMC 4NP

晶体管数量

800 亿

2080 亿

2080 亿

每个 GPU 的模具

122 NVFP4

稀疏性能 – 10 | 20 PetaFLOPS

15 | 20 PetaFLOPS

FP8 稠密型 | 稀疏性能

2 | 4 PetaFLOPS

5 | 10 PetaFLOPS

5 | 10 PetaFLOPS

注意力加速 (SFU EX2)

4.5 TeraExponentials/s

5 TeraExponentials/s

10.7 TeraExponentials/s

最大 HBM 容量

80 GB HBM (H100)
141 GB HBM3E (H200)

192 GB HBM3E

288 GB HBM3E

最大 HBM 带宽

3.35 TB/s (H100)
4.8 TB/s (H200)

8 TB/s

8 TB/s

NVLink 带宽

900 GB/s

1,800 GB/s

1,800 GB/s

最大功耗 (TGP)

高达 700W

高达 1,200W

高达 1,400W

NVIDIA GPU 芯片比较

以前用交流电(AC)直接进机柜就行,现在 100kW 的功率如果还用低压交流电,电流将高达几百安培,线缆会像大腿一样粗。为了减小损耗,AI 数据中心正全面转向48V甚至更高压的直流(DC)供电。在如此高功率、大电流、直流化的环境下,电流的微小波动都会被放大,任何一次电流检测的失真,其代价都可能是百万美金级的算力宕机。

AI算力配套设施各部位的电流检测需求与技术选型

在100kW以上AI能源链路中,在液冷环境(这个必须)、高频 DC/DC、GPU VRM以及7×24小时连续运行等机房运行条件下,电流检测分布在“发电、配电、用电”的每一个节点,根据不同的环境需求,需要匹配最合适的检测技术:

能源供应端

这是电能进入数据中心的第一道门,像GB200 NVL72这种130kW级AI机柜的主流供电是800V DC,母线电流I≈130000/800≈160A,训练负载突变时,达到200-300A并不罕见,于很多采用光伏+储能+变电站组合供电,有的AI算力中心已经部署在深山隧道里,而不是常见的普通机房。这种供电方式测量范围极广,并要求高可靠性和电气隔离,所以霍尔电流传感器成为主流,安装方便,而罗氏线圈(Rogowski Coil) 针对交流大电流检测,体积轻便,无磁饱和风险,适合临时监测或空间极其狭小的变压器输出端。

UPS(不间断电源)与直流屏

这部分属于电源保障端,相当于AI机房的“速效救心丸”,电力切换瞬间电流波动极大,因此要求传感器具有较高的动态响应和温漂控制能力,选型上,闭环霍尔传感器是首选,不缺钱的话可以选择磁通门。闭环霍尔传感器因其零磁通特性和高精度,响应时间也很小,能确保在停电切换时系统不掉线。

PDU机柜配电单元

此部分是配电端,是100kW以上大功率进入机柜后的分流器,一个机柜可能有几十个插槽,需要监测每一路负载。选型主要有芯片级霍尔传感器和分流器,如AN1V体积小,直接PCB安装,适合高密度监控。分流器成本低精度也高适合安装在几十安培的小电流支路上。

wKgZO2lLr4OAUV4RAAHHQsUGfnk544.png

服务器电源(PSU)与 DC/DC 转换器

此部分直接为GPU和CPU等高消耗部件供电,要求极高带宽和低损耗,选型上可有:电流互感器(CT)用于交流侧的高频电流检测;精密电阻(Shunt)+ 隔离放大器针对极小电流的精确采样;功率级霍尔芯片:随着GPU功率暴增,越来越多的电源模块开始选用集成式霍尔方案,以解决分流器发热导致的PUE超标问题。

一张表总结电流监测选型

部署位置检测对象典型需求推荐方案理由
储能/变电总输入电流量程大、安全性开口霍尔/罗氏线圈安装灵活,大电流+隔离强
UPS/直流屏备电电流动态响应、零漂移闭环霍尔响应快,保护核心资产
智能PDU支路电流体积小、多路采集芯片级霍尔/分流器节省机柜空间
服务器电源输出电流低损耗、数字化集成霍尔芯片降低发热,优化PUE
wKgZPGlLr4OAJnjhAAFg9jpl5qA371.png

总结

没有最好,只有最合适,AI算力中心电流监测选型方案也是一样,在选择合适方案之后,仍需注意几点:

  1. 量程上要留足余量,比如额定电流160-200A,峰值300A,那么选择量程300-500A的传感器型号;
  2. 隔离耐压是底线,800 V DC 系统隔离耐压 ≥3kV RMS,爬电距离要满足 IEC 62368;
  3. 看的是“长期漂移”,不是实验室精度数据,NVL72是7×24小时跑模型,不是实验板。温漂、老化、磁饱和裕量,这些比 0.1% 的标称精度更重要。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电流检测
    +关注

    关注

    14

    文章

    724

    浏览量

    42938
  • 人工智能
    +关注

    关注

    1821

    文章

    50511

    浏览量

    267734
  • 霍尔电流传感器

    关注

    3

    文章

    450

    浏览量

    15786
  • AI算力
    +关注

    关注

    1

    文章

    187

    浏览量

    10056
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    请问有应用于大功率100kW以上)的数字电源参考设计电路吗?

    本帖最后由 只耳朵怪 于 2018-6-8 10:49 编辑 有应用于大功率100kW以上)的数字电源参考设计电路吗?
    发表于 06-07 06:32

    为什么每一次采样出来得出的数字结果都差了3LSB?

    AD转换芯片标的技术参数 INL是3LSB:是不是说对于同个输入电压(很稳定的理想电压),每一次采样出来得出的数字结果会差3LSB?(就是数据的跳动。)
    发表于 06-05 10:50

    Google掌舵人:打电话AI一次非凡突破

    通过图灵测试!Google掌舵人说“打电话AI”是一次非凡突破
    发表于 05-12 13:45

    上海推出新高功率光纤激光器 多横模输出功率可达100kW

    近年来,高功率光纤激光器发展迅速。1μm波段的掺镱光纤激光器,近衍射极限输出功率可达20kW,多横模输出功率可达100kW
    的头像 发表于 07-16 17:30 8578次阅读

    三相电的功率该怎么?讲一次就非常了解

    三相电的功率该怎么一次就能讲清楚
    的头像 发表于 07-26 09:39 1.6w次阅读

    AEG每一次突破,只为带来更人性的呵护

    想要衣物保持种好的状态,就需要专业的呵护。AEG可以让衣物长时间保持光鲜亮丽,AEG不仅可以减少面料磨损,还能呈现衣物经典之色。AEG每一次的科技突破,只为带来更人性的呵护。 AEG 60厘米
    的头像 发表于 02-27 11:19 3334次阅读

    Axiom 100kW电机控制器开源分享

    电子发烧友网站提供《Axiom 100kW电机控制器开源分享.zip》资料免费下载
    发表于 08-10 09:25 22次下载
    Axiom <b class='flag-5'>100kW</b>电机控制器开源分享

    手表按键测试机:品质掌握在每一次按键间

    手表按键测试机:品质掌握在每一次按键间
    的头像 发表于 12-27 09:09 1610次阅读
    手表按键<b class='flag-5'>力</b>测试机:品质掌握在<b class='flag-5'>每一次</b>按键间

    国力,比克电池如何为AI时代“蓄能

    引擎》中明确提出,“是数字经济时代的新质生产,更是国家竞争的重要指标。”随着AI大模型训练
    的头像 发表于 06-04 14:22 1318次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>即</b>国力,比克电池如何为<b class='flag-5'>AI</b>时代“蓄能

    【涨知识】“”是个啥“”?

    海量知识随手查你的AI小助理为何越来越“丝滑”?三两句文字眨眼变身美图动画是谁将你的奇思妙想逐实现?手机拍照秒出大片行车导航精准选定最佳路线是谁在为你的假日保驾护航?轻轻点,海量运
    的头像 发表于 08-26 09:24 1887次阅读
    【涨知识】“<b class='flag-5'>算</b><b class='flag-5'>力</b>”是个啥“<b class='flag-5'>力</b>”?

    苍穹之心:ER-QA-03A石英加速度计如何守护每一次飞行?

    火箭撕裂天际,飞机云中漫步,我们见证着人类征服苍穹的壮举。然而,在这背后,有个精密部件正以高精度守护每一次飞行——它便是高性能石英加
    的头像 发表于 11-25 15:50 432次阅读
    苍穹之心:ER-QA-03A石英加速度计如何<b class='flag-5'>守护</b><b class='flag-5'>每一次</b>飞行?

    焦虑的另面:被忽视的“电力底座”ups电源升级战

    GPU的功耗突破千瓦,整个机柜功率密度向50kW甚至100kW迈进时,驱动这些“电老虎”稳定运行的电力
    的头像 发表于 01-05 09:42 2485次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>焦虑的另<b class='flag-5'>一</b>面:被忽视的“<b class='flag-5'>电力</b>底座”ups电源升级战

    曙光数创解锁高密的核心钥匙

    随着需求的爆发式增长,CPU、GPU等核心部件性能不断跃升,其功耗也呈指数级攀升。目前,台典型的通用双路服务器功耗已达到1kW,GPU服务器功耗超过10
    的头像 发表于 03-18 14:59 617次阅读

    龙腾半导体超结MOSFET重新定义AI电源

    随着人工智能(AI)和大模型训练的爆发式增长,AI服务器的功耗正以前所未有的速度攀升。从NVIDIA H100到B200,单卡功耗已突破1000W,整
    的头像 发表于 03-23 11:16 641次阅读
    龙腾半导体超结MOSFET重新定义<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>电源

    数据中心电能质量“隐形杀手”:APView350如何守护心脏

    电压暂降可能导致服务器宕机、数据丢失,造成的损失难以估量。 在AI需求爆发的今天,数据中心已经成为数字经济的“心脏”。这颗心脏的健康状况
    的头像 发表于 03-27 11:39 298次阅读
    数据中心电能质量“隐形杀手”:APView350如何<b class='flag-5'>守护</b><b class='flag-5'>算</b>力<b class='flag-5'>心脏</b>?