0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

单芯片1200W!AI数据中心撞上电网天花板

Simon观察 来源:电子发烧友网 作者:黄山明 2026-05-25 08:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/黄山明)就在近期,英伟达再次放出了一份亮眼的财报,不仅营收大超预期,黄仁勋更是展望Blackwell与Vera Rubin平台有望在2027年前达到1万亿美元。与此同时,一些大的科技巨头,如微软、谷歌、Meta 、亚马逊等,其2026年的AI资本开支预计将达到7000亿美元。

但另一方面,电力开始不够用了。AI数据中心已经成为名副其实的“电老虎”,生成式AI搜索消耗的电量是传统谷歌搜索的数倍。并且,英伟达芯片算力越强,密度越高,对电力的需求就越旺盛。

AI数据中心的电力危机

前段时间,微软CEO纳德拉在接受采访时表示,目前面临的最大问题不是算力过剩,而是电力。在微软最新建设的部分尖端数据中心里,由于当地电网无法及时供电,大批高价购入的英伟达芯片甚至只能处于闲置的状态。

数据显示,2026年全球将首次出现5个峰值功耗突破1GW的超级数据中心。而1GW是什么概念,这相当于一个中型核反应堆的输出量。例如微软在威斯康星州的Fairwater设施,预计到2028年其功耗将超过3GW。如此恐怖的电力消耗,现有的民用网络根本无法承受。

以美国为例,根据标普全球最新的能源数据,到2028年,全美新数据中心将产生约44GW的额外电力需求。然而,受限于电网扩容速度,未来三年内上线的电网新产能只能为数据中心提供25GW。这意味着将存在19GW(接近40%)的巨大电力缺口。

而电力需求如此巨大的原因,根源在于半导体物理法则的改变。过去,随着晶体管尺寸的缩小,例如从28nm到5nm,其工作电压和动态功耗会按比例下降,因此可以在相同面积内塞入更多的晶体管,而总功耗保持不变。这就是罗伯特·登纳德在1974年提出的著名的登纳德缩放定律。

但在2006年后,这一定律失效了。漏电流和量子隧穿效应导致即便晶体管变小,其开关功耗也不再按比例下降。例如英伟达H100拥有800亿个晶体管,B200拥有2080亿个晶体管。晶体管密度翻倍,单芯片热设计功耗从300W飙升至1000W甚至1200W以上。

在实际部署中,英伟达主推的GB200 NVL72架构将72颗GPU和36颗CPU集成在一个标准机架内,这使得单个计算机架的功耗高达120kW甚至130kW。

再由于功耗和散热的限制,芯片上所有晶体管无法在同一时间以最高频率全速运行。如果同时点亮所有核心,芯片会瞬间烧毁。这意味着大量硅面积必须处于“暗”(关闭或降频)状态。AI芯片为了达到极高的峰值算力,正在逼近这个热力学极限,导致每增加1FLOPS的算力,付出的电力代价越来越高。

并且为了解决海量数据传输的问题,AI芯片通常搭配HBM。这是因为HBM采用3D堆叠技术,将多层DRAM通过TSV垂直连接,其数据传输速率极高,但同时也带来了巨大的热电效应。数据在内存和GPU核心之间频繁搬运,产生的大量功耗并没有用于真正的计算中,而是变成了系统内耗的热量。

并且AI数据中心的信号在电信号和光信号之间频繁转换,随着集群规模的扩大,网络通信光电转换所消耗的电量,已经占到了整个数据中心总能耗的20%-30%。

电力承载天花板下的解决方案

当前AI芯片的迭代遵循摩尔定律,但要建一座电厂,拉一条超高压输电线动辄需要5-10年。建设数据中心的进度,远远跑在了电网承载力的前面。电力限制之下,厂商的AI数据中心需求又摆在面前,无法增加电力供应,那只能降低功耗。

因此可以看到,各大厂商开始自研芯片,如谷歌TPU、微软Maia、亚马逊Trainium。英伟达GPU是为了处理高度并行的矩阵乘法设计的,但为了通用性,它付出了巨大的功耗代价,例如需要庞大的控制逻辑和缓存。

而云厂商通过定制专用于特定Transformer层计算的硬连线逻辑,砍掉不必要的通用控制模块,可以在同等算力下将功耗降低30%-50%,提升每瓦特Token产出量。

例如微软正与Anthropic洽谈,计划向其提供自研Maia 200 AI 芯片。若达成,将是微软自研芯片对外突破的重要案例,目前微软在自研AI芯片对外服务上落后于亚马逊和谷歌。纳德拉此前称,Maia 200相比旧方案每美元Token生成效率提升30%以上。

电源架构上,过去外部高压电进入机房后,会先降到48V或54V,再通过服务器板载的中间总线转换器降到12V,最后由电压调节模块降到芯片需要的1V左右,多级转换导致电能层层损耗并大量放热。

如今一些电源芯片巨头,如Navitas、ST推出了“800V直转6V/12V”的级联电源板(PDB)。利用GaN和SiC的高频开关特性,电能从数据中心总线直接一步跨越到芯片脚下,砍掉了中间所有的转换损耗,效率飙升至96.5%,瞬间释放了大量原本被浪费的机架空间。

还有垂直供电技术(VPD),以前电源芯片贴在GPU四周,横向导电。现在如Empower Semiconductor推出的Crescendo VPD架构,将电源管理芯片直接置于GPU芯片的下方(封装内部垂直堆叠)。这使电流传输路径缩短了90%以上,完美解决了大模型突发计算时瞬态电流突变导致的电压骤降风险。

共封装光学(CPO)更是将光引擎直接和XPU封装在一起,电信号只走几毫米就进光,省掉长距离SerDes和大部分DSP。SemiAnalysis估算,CPO可以把传输每比特能耗降低50%以上,未来目标是80%。

近期华为数字能源等巨头正式推出了“网格互动式AI数据中心架构”数据中心不再只是单纯的耗电终端,而是配备了海量的电池储能系统与虚拟电厂技术。当白天电网用电高峰、电价昂贵时,数据中心可以降低部分非紧急训练任务的功耗,甚至用自备储能向电网倒灌电量(能源套利);到了深夜电力过剩、电价便宜时,再全功率开满进行AI大模型训练。这种技术缓冲大大减轻了公共电网的瞬态压力。

此外,液冷技术的加入,也有助于功耗的降低。例如冷板液冷(DLC)技术,冷板贴在 GPU/CPU 上,用去离子水/丙二醇溶液循环带走热量,可以让PUE下降30%-60%,显著减少散热功耗。

而浸没式液冷更是将服务器整个泡在介电液体里,液体直接吸收芯片热量,再通过 CDU外热交换。散热能力最高可以达到100kW/机柜,机柜服务器密度可以提升约10倍,PUE可以低至1.03,整体节能可达30%。

总结

当前AI芯片在硅片和软件架构上的演进是指数级的,但散热、发电厂与电网遵循的是传统物理学和重工业规律,其演进是线性的、受限于物理材料极限的。电力的供应,很大程度限制了AI发展的上限,如何在有限的电力供应下,获得更高的Token生成效率,已经成为行业重要的研究方向。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54644

    浏览量

    470991
  • 电力
    +关注

    关注

    8

    文章

    2440

    浏览量

    53156
  • 数据中心
    +关注

    关注

    18

    文章

    5846

    浏览量

    75251
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高通挑战英伟达,发布768GB内存AI推理芯片,“出征”AI数据中心

    亿美元的数据中心市场中抢占一席之地。 就在10月28日,高通面向数据中心连发两款AI芯片AI200 和
    的头像 发表于 10-29 10:36 4069次阅读
    高通挑战英伟达,发布768GB内存<b class='flag-5'>AI</b>推理<b class='flag-5'>芯片</b>,“出征”<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>

    高通挑战英伟达!发布768GB内存AI推理芯片,“出征”AI数据中心

    亿美元的数据中心市场中抢占一席之地。   就在10月28日,高通面向数据中心连发两款AI芯片AI200 和
    的头像 发表于 10-29 09:14 6868次阅读
    高通挑战英伟达!发布768GB内存<b class='flag-5'>AI</b>推理<b class='flag-5'>芯片</b>,“出征”<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>

    AMC16Z为数据中心

    数据中心
    安科瑞缪志澄
    发布于 :2026年05月08日 14:47:10

    MBC1200 / MBE1200系列1200W AC - DC电源供应器技术解析

    180 - 305 VAC输入电压范围内提供稳定的1200W稳压直流电源,在85 - 137 VAC输入电压范围内提供1000W电源。它有24V或48V的输出电压,同时提供12V和5V的待机输出,
    的头像 发表于 04-28 10:55 373次阅读

    曦智科技探讨AI数据中心三大扩展策略

    在OFC 2026期间,曦智科技接受了Semiconductor Engineering的专访,探讨了AI数据中心三大扩展策略——纵向扩展(Scale-up)、横向扩展(Scale-out)和跨数据中心扩展(Scale-acro
    的头像 发表于 04-21 16:34 462次阅读
    曦智科技探讨<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>三大扩展策略

    国产数据中心AI芯片企业一览

    电子发烧友网报道(文/李弯弯)在全球科技竞争日益激烈的背景下,数据中心AI芯片已成为各国科技企业争夺的战略高地。随着严格的芯片出口管制政策实施,国产
    的头像 发表于 02-09 09:07 1.1w次阅读

    1分钟带你了解数据中心供电架构 #电子元器件 #数据中心 #供电架构

    数据中心
    沛城芯动力
    发布于 :2026年02月03日 15:39:04

    金升阳推出全新1200W可配置电源LMP1200系列

    由半导体制造设备、电动汽车、可再生能源、5G/AI硬件等颠覆性产业强力拉动,金升阳推出全新模块化设计、可快速配置与复用的可配置电源——LMP1200系列,该系列最大输出功率1200W,用户可按
    的头像 发表于 01-22 17:08 853次阅读
    金升阳推出全新<b class='flag-5'>1200W</b>可配置电源LMP<b class='flag-5'>1200</b>系列

    Credo携1.6T Bluebird DSP破解AI数据中心算力瓶颈

    高速连接17年的企业再掷重磅——发布 新一代1.6T Bluebird DSP ,为AI数据中心的“算力军备竞赛”注入关键动力。 当下,AI大模型训练集群的GPU数量已突破百万级,
    的头像 发表于 10-17 14:49 1071次阅读
    Credo携1.6T Bluebird DSP破解<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>算力瓶颈

    思科Cisco 8223:51.2Tbps P200芯片助力AI数据中心

    P200芯片,为AI时代跨数据中心的高速互联需求提供了高效解决方案。   P200芯片具备每秒51.2太比特(Tbps)的以太网处理能力。思科表示,仅用
    的头像 发表于 10-12 08:31 1.1w次阅读
    思科Cisco 8223:51.2Tbps P200<b class='flag-5'>芯片</b>助力<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>

    氮化硼TIM材料解决AI数据中心的能效困境 | 晟鹏科技

    级别,NVIDIAGB200等超级芯片组的峰值功耗甚至超过2700W。这种"热情"背后隐藏着严峻的挑战。据统计,全球数据中心能耗已占全球总用电量的2-3%,其中冷
    的头像 发表于 09-22 07:30 1107次阅读
    氮化硼TIM材料解决<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>的能效困境 | 晟鹏科技

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI云的转型。
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区发布全新升级的星河AI
    的头像 发表于 08-11 10:42 2686次阅读

    中型数据中心中的差分晶体振荡器应用与匹配方案

    中型数据中心的定义与特点 中型数据中心通常服务于中大型企业、科研机构或地方行业节点,具备50至200个机柜,部署多台服务器、交换设备、存储系统与光通信链路等,强调高带宽、低延迟与高可用性。关键设备
    发表于 07-01 16:33