0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Vicor电源模块突破数据中心AI电力困境

Vicor 来源:Vicor 2025-08-19 15:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在本次独家问答中,Vicor 认为,数据中心AI 机架的 ±400VDC配电是不可避免的。

你将了解的内容:

对更高计算密度的需求;

向新一代 AI/ML 超级计算的 ±400VDC配电发展;

向 ±400VDC分布式电源过渡的挑战和解决方案。

尽管底层硅芯片的性能有了巨大的飞跃,但人工智能 (AI) 训练仍在推动数据中心电力的突破。斯坦福大学最新的 AI 指数报告显示,最先进的 AI 模型越来越大,现已达到高达 1 万亿个参数及 15 万亿个 Tokens。

因此,模型训练需要更多的时间和资源(长达 100 天以及 380 亿 petaFLOPS 或 PFLOPS),而训练成本会继续上扬(高达 1.92 亿美元)。训练一个这样的模型需要多少电力?超过 2500 万瓦。

亚马逊、谷歌、Meta 和微软等科技巨头正在转向核能,以满足训练和运行 AI 所需的巨大电力需求。但将大量可靠电力送入其庞大的数据中心只成功了一半。真正的问题出现在服务器机架本身的内部,其中电力电子产品正在与处理器、存储器和网络硬件竞争有限的空间。随着功率密度的提高,有效管理这种内部配电正在成为一个关键问题。

数据中心的底层架构如何改变,才能走出 AI 电力困境?

首先,系统设计者正在大力提高计算密度,其在 EIA 标准的 19 英寸宽的数据中心服务器机架或 OCP 标准的 21 英寸宽的数据中心服务器机架中,可以采用每升 petaFLOPS 测量。单个 petaFLOP 相当于每秒 1 千万亿次浮点运算。

一个相关问题是:“为什么较高的计算密度有助于降低训练这些大型 AI 模型的运营成本?”简而言之,这是因为处理器之间的内存带宽和非最佳时延是性能的瓶颈。大型模型训练需要大量的低时延内存以及无阻塞“全对全”网络架构(在 AI 集群或“超级群组”内支持数十个处理器的共享访问)。

让机架中的处理器、内存和网络交换机物理距离更近,不仅可增加带宽,而且还可缩短处理器之间的整体通信时延,从而可缩短 AI 模型的训练时间。具体来说,由单个机架定义的较短距离有助于使用无源铜线缆替代有源光收发器,有源光收发器因嵌入的 Retimer 及 DSP,不仅成本更高,而且还非常耗电。

一款典型的 800G QSFP-DD 和 OSFP 收发器的功耗约为 15W。因为这些超级计算机使用数以万计的光收发器,因此移除所有这些组件节省的电源和成本非常可观,每个机架可节省高达 20kW 的电力。

从风冷转向液冷机架级 AI 训练系统,可实现计算密度的 4 倍增长。

采取哪些额外的措施在计算密度与电力及成本节省之间实现平衡?

新一代 AI 超级计算机已从风扇强制风冷发展至液冷。我再问自己一个问题:“这如何助力提高计算密度?”在上一代产品中,有八个处理器的每个托盘配备有十个 80 毫米的风扇和一个大型散热器,其总共需要八个机架单元 (RU) 或每个机架单元一个 GPU 的计算密度。

下一代则通过薄水块冷板采用直接液冷,每个 RU 托盘有两个 CPU 和四个 GPU。这相当于每个机架单元四个 GPU 的处理器密度,进而提高了 4 倍。

液冷还可消除噪声并降低这些系统中高速旋转的 12VDC风扇所消耗的大量电力。此外,通过保持封装外壳及硅芯片结点较低的温度,直接液冷可延长 AI 处理器的平均故障间隔时间。据报道,该时间在风冷 AI 训练系统中相对较短,会增加停机时间和运营成本。与风冷计算机系统相比,液冷计算机系统通常还能实现更高的时钟频率。这两种结果均可减少 AI 模型的训练时间和成本。

还有哪些方法可提高数据中心的计算密度?电力发挥着怎样的作用?

在以往及当代 AI 服务器机架中,采用三相 480VAC(有时为 416VAC)机架配电,会将多达 30% 的机架空间用于 AC-DC 整流、针对 54VDC的 DC-DC 转换,以及电池备份单元 (BBU)、电容器架和/或不间断电源 (UPS)。

为了提高计算密度并高效应对功耗达 140kW 或更高的机架状况,超大规模企业现在主张向新一代 AI 超级计算机机架的 ±400VDC配电发展。

将 AC-DC 整流和电池备份 (BBU) 功能从 AI 训练机架中移除,有助于提高计算密度。

愿景是将整流、BBU 和 UPS 功能从 48 个 RU 机架中移除,腾出空间用于增设计算和网络托盘。假设机架尺寸为:600 毫米宽、1068 毫米深和 2236 毫米高,这可实现 36 个 CPU 和 72 个 GPU 的计算密度,总计每 48 个 RU 约为 720 petaFLOPS。这种新的系统架构可将每升训练性能的计算密度提高到约 0.5 petaFLOPS。

最重要的是,对更低成本、更高 AI 训练性能的需求将推动计算密度发展,进而促进 ±400VDC配电的采用。

AI 服务器机架的 ±400VDC 配电如何降低系统功耗及成本?

数据中心现有的 480VAC配电通常会将 BBU 和 UPS 功能集中起来,提供大型 BBU/UPS 单元,其可通过配电单元 (PDU) 支持多个 AI/ML 机架。

这些独立的二合一单元接收交流电,因此它们必须转换为直流电,才能保持电池充电。此外,BBU/UPS 单元还必须将电池输出转换回 AC,而这种双路转换过程(先是 AC-DC,然后是 DC-AC)会降低电源利用效率并增加硬件成本。采用 ±400VDC配电,BBU 和 UPS 无需 AC-DC 整流功能。

AI 数据中心有哪些与 ±400VDC 配电相关的挑战?

400VDC电压并非安全超低电压 (SELV) 等级,因此会带来必须处理的安全监管问题。此外,为了保留 800VDC供电的运算选项,必须为每个机架铺设三根导线(−400V、GND、+400V),这会增加成本。

Vicor BCM6135 系列电源模块支持 800VDC及 400VDC至 54、50 或 48VDC的高效电压转换。

假设每个 AI 机架为 140kW,则这在 400VDC时为 350A,在 800VDC时为 175A。高达 350A 的电流可能需要 500MCM 规格的铜线缆(75°C 时,380A 的载流量),而 175A 的电流则可能需要 3/0AWG 的铜线(75°C 时,200A 的载流量)。用于 400VDC配电的 500MCM 规格的铜线缆每英尺成本约为 14 美元,而用于 800VDC配电的 3/0AWG 铜线缆则每英尺成本约为 5 美元。在大型数据中心,这种几乎 3 倍的线缆成本差异是很大的。

成本增量有利于 800VDC配电,但 800V 生态系统没有 400V 生态系统成熟,因为电动汽车使用 400VDC。然而,汽车制造商正在迅速向 800V 电池及 DC-DC 转换器过渡,因此成本问题是发展变化的。

最大的挑战之一是处理机架内的高强度电流。假设使用 1:8 固定比率 DC-DC 转换器将 400VDC标称电压转换为 50VDC标称电压,在 140kW 时,转换会在 50VDC下产生 2,800A 的电流。这需要一根横截面约为 1600 平方毫米的镀银铜母线,才能满足风冷母线所需的载流量需求。该横截面的 2.1 米长母线可能有 5μΩ 的电阻,假设机架功耗持续为 140kW,在 20°C、2,800A 下,母线的功耗可能高达 45W。

潜在的解决方案是什么,电力电子产品在这一转变过程中发挥着怎样的作用?

然而,不仅可使用现有机架内液冷基础设施对垂直母线进行液冷,而且还可显著缩小其风冷横截面,最高可缩小 5 倍(电阻和功耗会随温度升高而增加)。这意味着可节省大量的成本和重量。

母线液冷还能更好地控制母线上的最大压降。这不仅可缩小中间母线转换器的输入电压范围,而且还可降低 CPU/GPU 加速器计算模块和网络 ASIC 交换模块的负载点稳压负担。请注意,在处理数千安培的载流量,以确保最小热损耗时,选择 50VDC连接器也会变得更加重要。

OCP 开放机架 V3 规范和 ORv3 高功率机架 (HPR) 规范是业界为解决当前及新一代 AI 超级计算机电源及热工程带来的工程挑战而做出的努力。设计新一代 AI 超级计算机系统仍将涉及导航一系列复杂的工程及经济权衡。

具有低热阻与共面表面(可直接与液冷冷板配套)的高密度电源模块将在实现 AI 超级计算机数据中心机架的高压 DC 配电过程中发挥重要作用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    18

    文章

    5846

    浏览量

    75251
  • AI
    AI
    +关注

    关注

    91

    文章

    41992

    浏览量

    303086
  • Vicor
    +关注

    关注

    4

    文章

    249

    浏览量

    60828

原文标题:数据中心电力分解

文章出处:【微信号:Vicor,微信公众号:Vicor】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    数据中心对UPS电源的4大核心需求,筑牢电力保障防线

    数据中心作为数字时代的“核心枢纽”,承载着海量数据的存储、运算与传输任务,对供电连续性、稳定性、高效性的要求远超普通场景。UPS不间断电源作为数据中心电力保障体系的核心设备,其性能直接
    的头像 发表于 03-12 10:04 405次阅读
    <b class='flag-5'>数据中心</b>对UPS<b class='flag-5'>电源</b>的4大核心需求,筑牢<b class='flag-5'>电力</b>保障防线

    罗姆功率半导体技术助力应对AI数据中心电力难题

    随着AI的惊人发展,支撑其运转的数据中心电力消耗量急剧攀升,这一严峻课题也日益突出。如何破解这一难题,已成为产业发展的关键。本文将聚焦罗姆SiC等功率器件及解决方案,并介绍其在革新服务器电源
    的头像 发表于 02-25 09:42 991次阅读
    罗姆功率半导体技术助力应对<b class='flag-5'>AI</b><b class='flag-5'>数据中心电力</b>难题

    Microchip推出全新电源模块,提升AI数据中心功率密度与能效

    有助于简化设计、降低能耗,并为先进数据中心提供所需稳定性能。Microchip Technology(微芯科技公司)今日宣布推出MCPF1525电源模块。这款高度集成的器件配备16V Vin降压转换器
    的头像 发表于 02-04 16:15 6.1w次阅读
    Microchip推出全新<b class='flag-5'>电源模块</b>,提升<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>功率密度与能效

    德州仪器如何满足AI数据中心日益增长的电力需求

    生成式 AI 的兴起,正将数据中心电力需求推向前所未有的高度。了解下一代 800VDC 电源架构如何助力直面这些挑战。
    的头像 发表于 12-15 09:52 1098次阅读

    MPN541382-PV:替代VICOR停产与ADI、TI等品牌电源模块的方案

    MPN541382-PV:替代VICOR停产与ADI、TI等品牌电源模块的方案MPN541382-PV电源模块可替代VICOR VTM系列中的VTM48EF096T025A00
    发表于 12-11 10:02

    氮化硼TIM材料解决AI数据中心的能效困境 | 晟鹏科技

    AI算力爆发的“热情”与能效困境人工智能技术的飞速发展推动全球进入智能算力时代。ChatGPT、Sora等大模型的广泛应用,使得数据中心的计算需求呈指数级增长。单个AI训练服务器的功率
    的头像 发表于 09-22 07:30 1107次阅读
    氮化硼TIM材料解决<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的能效<b class='flag-5'>困境</b> | 晟鹏科技

    硅基技术在电源模块中的优势

    尽管市场越来越看好氮化镓(GaN),硅仍然在许多电源模块应用中表现强劲,包括专门处理高算力AI工作负载的数据中心
    的头像 发表于 09-19 11:03 3766次阅读

    英飞凌携手台达共同开发高功率密度电源模块, 加速数据中心电源架构升级

    (Delta Electronics, Inc.)强化既有合作伙伴关系,共同开发高功率密度电源模块,为超大型数据中心AI处理器提供领先的垂直供电解决方案。这是双方共同推动AI
    发表于 08-29 17:50 1403次阅读
    英飞凌携手台达共同开发高功率密度<b class='flag-5'>电源模块</b>, 加速<b class='flag-5'>数据中心电源</b>架构升级

    氮化硼有“凉”方,解决AI数据中心的能效困境 | 晟鹏科技

    AI算力爆发的“热情”与能效困境人工智能技术的飞速发展推动全球进入智能算力时代。ChatGPT、Sora等大模型的广泛应用,使得数据中心的计算需求呈指数级增长。单个AI训练服务器的功率
    的头像 发表于 08-26 09:42 1485次阅读
    氮化硼有“凉”方,解决<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的能效<b class='flag-5'>困境</b> | 晟鹏科技

    睿海光电:400G光模块技术创新与AI数据中心变革

    睿海光电:400G光模块技术创新与AI数据中心变革 一、400G光模块:新一代数据中心的核心引擎 在AI
    的头像 发表于 08-18 13:52 1453次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI模块的研发与量产先锋 睿海光电作为全球AI
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    国民技术发布面向AI数据中心的3 kW数字电源参考设计方案

    在人工智能(AI)算力爆发式增长与全球能源结构转型的双重驱动下,电力供给体系正经历从”粗放式”到”智能化”的范式变革。AI数据中心的单机功耗已突破
    的头像 发表于 07-22 14:01 3211次阅读
    国民技术发布面向<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的3 kW数字<b class='flag-5'>电源</b>参考设计方案

    国民技术发布面向AI数据中心的3 kW数字电源参考设计方案

    在人工智能(AI)算力爆发式增长与全球能源结构转型的双重驱动下,电力供给体系正经历从”粗放式”到”智能化”的范式变革。AI数据中心的单机功耗已突破
    的头像 发表于 07-16 17:13 2246次阅读
    国民技术发布面向<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的3 kW数字<b class='flag-5'>电源</b>参考设计方案

    简单认识安森美AI数据中心电源解决方案

    面对AI算力需求爆发式增长,数据中心电力系统正面临前所未有的挑战。安森美(onsemi)推出的AI数据中心电源解决方案,直击能效、尺寸等痛点,助力客户把握
    的头像 发表于 07-05 13:03 3883次阅读
    简单认识安森美<b class='flag-5'>AI</b><b class='flag-5'>数据中心电源</b>解决方案