0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

千瓦芯片时代的热管理变革

半导体芯科技SiSC 来源:半导体芯科技SiSC 作者:半导体芯科技SiS 2024-01-04 17:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:半导体芯科技编译

随着摩尔定律的放缓,芯片,尤其是用于人工智能和高性能计算(HPC)的芯片,逐渐变得炙手可热。2023 年,随着英伟达(Nvidia)GH200 超级芯片的到来,我们看到加速器的功率进入了千瓦级。

我们早已知道这些芯片会很热门--Nvidia 在两年前就已经开始预告这款 CPU-GPU 芯片。直到最近,我们才知道原始设备制造商和系统构建商将如何应对这种功率密集型部件。大多数系统会采用液体冷却吗?还是大多数会坚持使用空气冷却?他们会在一个盒子里塞进多少台这样的加速器,盒子又有多大?

现在,第一批基于 GH200 的系统已经投放市场,很明显,外形尺寸在很大程度上是由功率密度决定的。从根本上说,这取决于散热的表面积有多大。

深入研究 Supermicro、Gigabyte、QCT、Pegatron、HPE 等公司目前提供的系统,您很快就会注意到一个趋势。每个机架单元 (RU) 高达 500 W – Supermicro 的 MGX ARS-111GL-NHR 为 1 kW – 这些系统主要采用风冷。虽然温度较高,但散热负荷仍在可控范围内,每个机架的功率约为 21-24 kW。这完全在现代数据中心的供电和热管理能力范围内,尤其是那些使用后门热交换器的数据中心。

但是,当系统制造商开始在每个机箱中安装超过 1 kW的加速器时,情况就会发生变化。此时,我们看到的大多数 OEM 系统都改用了直接液冷技术。例如,Gigabyte的 H263-V11 在一个 2U 机箱中最多可容纳四个 GH200 节点。

也就是说,每个机架单元的功率为 2 kW。因此,虽然像 Nvidia 的风冷 DGX H100 系统(配备 8 个 700 瓦 H100 和双蓝宝石 Rapids CPU)的 TDP 较高,为 10.2 千瓦,但其功率密度实际上较低,为 1.2 kW/RU。

除了能更有效地从这些密集的加速器中传递热量外,液体冷却还有几个优点。系统功率越高,从系统中带走热量所需的静压和气流就越大。这就意味着要使用更热、更快的风扇,从而消耗更多的功率——在某些情况下可能高达系统功率的 20%。

当每个机架单元的功率超过 500 W 时,大多数原始设备制造商和原始设计制造商似乎都会选择液冷机箱,因为冷却网卡、存储和其他外设等低功耗组件所需的风扇数量更少、速度更慢。

只要看看 HPE 的 Cray EX254n 刀片,就能知道液冷机箱的作用有多大。该平台最多可支持四个 GH200。在 1U 的计算刀片中就有 4 千瓦,这还不算用于为芯片提供数据的网卡。

当然,HPE 的 Cray 部门对超高密度计算组件的冷却确实很有心得。不过,这确实说明了系统构建商在服务器上花费的心思,不仅在系统层面,而且在机架层面。

机架级起飞

正如我们之前在介绍 Nvidia DGX H100 系统时提到的那样,为多千瓦服务器单独散热是原始设备制造商非常熟悉的事情。但是,一旦要在机架上安装这些系统,情况就会变得复杂起来,机架电源和设备冷却等因素都会发挥作用。

在我们的同类出版物《下一代平台》(The Next Platform)上,我们深入探讨了像 Digital Reality 这样的数据中心运营商为支持此类系统的密集部署而必须克服的挑战。

在许多情况下,主机托管服务提供商需要重新设计其电源和冷却基础设施,以支持在单个机架中安装四个 DGX H100 系统所需的 40 多千瓦的功率和热量。

但是,如果您的数据中心或主机托管服务提供商无法提供这种功率的机架,也无法承受这种热量,那么在大部分机架都将空置的情况下,将这些系统的密度提高到这种程度就没有多大意义了。

随着 GH200 的推出,我们看到 Nvidia 不再关注单个系统,而是更加关注机架规模的部署。在今年春季的 Computex 上,我们首次看到了 DGX GH200 集群。

该系统实际上由 256 个 2U 节点组成,每个节点都装有一个 GH200 加速器,而不是一堆密集的 GPU 节点。组合起来,该系统能够提供高达 exaFLOPS 的 FP8 性能,但在设施层面的部署要容易得多。现在的功耗不再是 1.2 kW/RU,而是接近 500 W/RU,这与大多数原始设备制造商使用自己的风冷系统时的情况差不多。

最近,我们看到 Nvidia 在今年秋季的 Re:Invent 大会上与 AWS 合作发布了 GH200-NVL32,将其缩小到单个机架。

该系统在一个机架上安装了 16 个 1U 机箱,每个机箱配备两个 GH200 节点,并使用九个 NVLink 交换机托盘将它们连接在一起。不用说,这些计算能力为 2 千瓦/RU 的小系统密度很高,因此从一开始就被设计为液冷系统。

更热的芯片即将上市

虽然我们一直在关注 Nvidia 的 Grace Hopper 超级芯片,但这家芯片制造商并不是唯一一家为追求性能和效率而将 TDP 推向新极限的厂商。

本月早些时候,AMD 公布了其最新的 AI 和 HPC GPU 和 APU,该公司的 Instinct 加速器的功耗从上一代的 560 W 跃升至 760 W。

更重要的是,AMD 首席技术官马克-帕普马斯特(Mark Papermaster)告诉《The Register》,未来几年仍有足够的空间将 TDP 推得更高。

至于这是否会最终促使芯片制造商强制要求其旗舰产品采用液冷技术,目前还没有答案。据 Papermaster 称,AMD 将在其平台上支持空气和液体冷却。但正如我们在 AMD 新的 MI300A APU 上看到的那样,继续选择风冷几乎肯定意味着性能上的让步。

MI300A的额定功率为550瓦,远远低于我们所认为的850瓦,但如果有足够的冷却,它的运行温度会更高。在HPC调整系统中,如HPE、Eviden(Atos)或联想开发的系统,芯片可以配置为760 W。

与此同时,英特尔正在探索使用两相冷却剂和珊瑚启发设计的散热片来冷却 2 千瓦芯片的新方法,以促进气泡的形成。

这家芯片制造商还宣布与基础设施和化学品供应商建立广泛的合作关系,以扩大液体冷却技术的使用范围。该公司最新的合作旨在利用 Vertiv 的泵送两相冷却技术为英特尔即将推出的 Guadi3 AI 加速器开发冷却解决方案。®

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53535

    浏览量

    459132
  • amd
    amd
    +关注

    关注

    25

    文章

    5647

    浏览量

    139025
  • AI
    AI
    +关注

    关注

    89

    文章

    38103

    浏览量

    296624
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在实际网关设计中,如何利用电容的高纹波电流能力进行热管理优化?

    在实际网关设计中,如何利用电容的高纹波电流能力进行热管理优化?
    发表于 11-26 07:59

    维谛技术(Vertiv)“热管理链分论坛”:兆时代需要“全链制冷”思维

    面对高密算力带来的散热挑战,一场关于制冷技术的颠覆性变革正在发生——“兆时代”智算中心制冷,必须从整个热管理链条上寻找突破,任何单一技术都无法独立解决问题。“思无界设享未来——202
    的头像 发表于 11-17 16:17 987次阅读
    维谛技术(Vertiv)“<b class='flag-5'>热管理</b>链分论坛”:兆<b class='flag-5'>瓦</b><b class='flag-5'>时代</b>需要“全链制冷”思维

    进芯电子亮相第六届溧阳热管理论坛

    10月30日—31日,第六届溧阳热管理论坛在江苏溧阳顺利举办,余位来自新能源汽车、数据中心、AI芯片及低空经济等领域的行业专家与企业代表齐聚一堂,围绕热管理技术的前沿趋势与产业协同展
    的头像 发表于 11-05 15:35 325次阅读

    30千瓦的厨房电器EMC如何整改呢?

    随着智能厨房设备功率密度持续升级,30千瓦级大功率厨房电器的电磁兼容性(EMC)问题日益凸显。行业数据显示,约60%的便携式电源产品因传导发射超标导致认证失败,不仅延误上市周期,单次整改成本甚至
    的头像 发表于 08-29 17:50 465次阅读

    热管理技术设计革命:主动散热与被动散热

    随着半导体工艺逼近物理极限,集成电路产业正加速向“超越摩尔”时代跃迁,芯片功率密度与发热量剧增。5G、AI、HPC、数据中心等新兴领域对高效热管理技术提出迫切需求。先进封装与热管理技术
    的头像 发表于 08-01 06:23 589次阅读
    <b class='flag-5'>热管理</b>技术设计革命:主动散热与被动散热

    30千瓦的显示屏EMC如何整改呢?

    南柯电子|30千瓦的显示屏EMC如何整改呢?
    的头像 发表于 07-24 09:35 443次阅读

    30千瓦的开关电源EMC传导如何整改呢?

    深圳南柯电子|30千瓦的开关电源EMC传导如何整改呢?
    的头像 发表于 07-17 11:05 579次阅读

    30千瓦的高压线束EMC如何整改呢?

    深圳南柯电子|30千瓦的高压线束EMC如何整改呢?
    的头像 发表于 07-10 09:36 360次阅读

    30千瓦的扫地机器人EMC如何整改呢?

    南柯电子|30千瓦的扫地机器人EMC如何整改呢?
    的头像 发表于 06-19 09:42 597次阅读

    30千瓦的移动电源EMC如何整改呢?

    南柯电子|30千瓦的移动电源EMC如何整改呢?
    的头像 发表于 06-06 09:40 577次阅读
    30<b class='flag-5'>千瓦</b>的移动电源EMC如何整改呢?

    30千瓦的便携式电源EMC如何整改呢?

    南柯电子|30千瓦的便携式电源EMC如何整改呢?
    的头像 发表于 05-22 09:35 472次阅读
    30<b class='flag-5'>千瓦</b>的便携式电源EMC如何整改呢?

    闪充横空出世,120kw充电桩面临淘汰?

    120千瓦直流充电桩短期内并不会被淘汰,仍将在未来5-10年保持市场主力地位
    的头像 发表于 04-15 10:25 881次阅读
    兆<b class='flag-5'>瓦</b>闪充横空出世,120kw充电桩面临淘汰?

    汽车电芯的热管理设计

    一、不同电芯热管理介绍热管理的意义:人们对电动车续航里程、充电时间的要求越来越高,行之有效的电池热管理系统,对于提高电池包整体性能具有重要意义。热管理想要达到的效果:Pack内热过程
    的头像 发表于 04-13 15:51 939次阅读
    汽车电芯的<b class='flag-5'>热管理</b>设计

    汽车热管理相关知识

    在汽车问世以来,热管理有着不可或缺的作用。从传统内燃机时代发动机冷却系统,到车内温度调节系统。随着电子控制技术的发展,从传统的机械式驱动系统,引入电子水泵和电动风扇。
    的头像 发表于 01-22 13:58 1482次阅读
    汽车<b class='flag-5'>热管理</b>相关知识

    经纬恒润热管理系统研发服务全新升级

    为了应对日趋复杂的热管理系统和降本增效的研发需求,数字化技术在热管理系统的研发中将发挥重要作用。经纬恒润在汽车热管理领域拥有15年的研发服务经验,针对目前新能源汽车热管理系统设计研发问
    的头像 发表于 12-30 10:29 811次阅读
    经纬恒润<b class='flag-5'>热管理</b>系统研发服务全新升级