0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 在 Hot Chips 大会展示提升数据中心性能和能效的创新技术

半导体芯科技SiSC 来源:半导体芯科技SiSC 作者:半导体芯科技SiS 2024-08-28 16:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源: NVIDIA

在此次大会期间举行的四场演讲中,NVIDIA 工程师详细介绍了 NVIDIA Blackwell 平台、新的液冷研究成果以及支持芯片设计的 AI 代理。

wKgZombO4h6AflHlAAEIfgYck7I686.jpg

作为面向产业界和学术界、在处理器及系统架构师领域的深度技术盛会,Hot Chips 已经成为价值万亿美元的数据中心计算市场的一个重要论坛

在本周举行的 Hot Chips 2024 上,NVIDIA 的高级工程师们展示了为 NVIDIA Blackwell 平台提供动力的最新技术进展,以及新的数据中心液冷研究成果和用于芯片设计的 AI 代理。

他们围绕如下内容展开了介绍:

NVIDIA Blackwell 集合了多种芯片、系统和 NVIDIA CUDA 软件,为跨应用场景、行业和国家的新一代 AI 提供动力。

NVIDIA GB200 NVL72——一个多节点、液冷、机架级扩展解决方案,可连接72个Blackwell GPU 和36个 Grace CPU——提升了AI系统设计的标准。

NVLink 互连技术提供多对多 GPU 间的通信,为生成式 AI 实现创纪录的高吞吐量和低延迟推理。

NVIDIA Quasar 量化系统突破物理极限,加速 AI 计算。

NVIDIA 研究人员正在构建 AI 模型,此模型将协助打造用于 AI 的处理器。

在一场关于 NVIDIA Blackwell 的演讲中,重点介绍了新架构的细节以及在 Blackwell 芯片上运行的生成式 AI 模型的示例。

另外的三场讲座,内容涵盖混合液冷解决方案如何帮助数据中心过渡到能效更高的基础设施,以及包括大语言模型驱动的 AI 代理在内的模型如何帮助工程师设计下一代处理器。

这些演讲共同展示了 NVIDIA 工程师们在数据中心计算和设计的每一个领域都在进行创新,以提供前所未有的性能、能效和优化。

为 Blackwell 做好准备

NVIDIA Blackwell 是全栈计算的极限挑战。它由多个 NVIDIA 芯片组成,包括 Blackwell GPU、Grace CPU、BlueField 数据处理器、ConnectX 智能网卡、NVLink Switch、Spectrum 以太网交换机和 Quantum InfiniBand 交换机。

wKgZombO4h6AW1BvAAEvOMccuF4786.jpg

NVIDIA 架构总监 Ajay Tirumala 和 Raymond Wong 现场首次展示了该平台,并解释了这些技术是如何协同配合,在提高能效的同时为 AI 和加速计算的性能确立新的标准。

多节点 NVIDIA GB200 NVL72 解决方案正是一个恰如其分的例子。LLM 推理需要低延迟、高吞吐量的 token 生成。GB200 NVL72 作为一个统一的系统,为 LLM 工作负载提供最多至 30 倍的推理速度提升,使得实时运行万亿参数模型成为可能。

Tirumala 和 Wong 还探讨了 NVIDIA Quasar 量化系统如何在低精度模型上实现高准确度,并重点介绍了使用 LLM 和视觉生成式 AI 的例子。NVIDIA Quasar 量化系统结合了算法创新、NVIDIA 软件库和工具以及 Blackwell 的第二代 Transformer 引擎。

让数据中心保持“凉爽”

通过风冷和液冷结合的混合冷却,研究人员开发出了更高效和可持续的解决方案,有望让传统风冷数据中心的嗡嗡作响成为历史。

与风冷技术相比,液冷技术能够更高效地为系统散热,从而使计算系统即使在处理大型工作负载时也更容易保持低温状态。液冷设备也比风冷系统占用更少的空间,耗电量更低,从而使数据中心可以在其设施中添加更多服务器机架,以增加更多算力。

NVIDIA 数据中心冷却和基础设施总监 Ali Heydari 介绍了几种混合冷却数据中心的设计方案。

有些设计方案利用液冷单元改造现有的风冷数据中心,为现有机架增加液冷功能提供了一种快速、便捷的解决方案。其它设计方案则需要使用冷却液分配单元,安装管道以直接对芯片进行液体冷却,或者将服务器完全浸入到冷却水箱中。尽管这些设计需要较大的前期投资,但却能够大幅降低能耗和运营成本。

Heydari 还介绍了其团队在 COOLERCHIPS 项目中的工作,这个项目旨在开发先进的数据中心冷却技术。作为该项目的一部分,Heydari 的团队正在使用 NVIDIA Omniverse 平台来创建基于物理的数字孪生,这将帮助他们对能耗和冷却效率进行建模,以优化数据中心设计。

AI 代理助力处理器设计

半导体设计在微观尺度上是一个巨大的挑战。开发尖端处理器的工程师们努力在一个几英寸大的芯片上装进尽可能多的算力,测试物理上可以实现的极限。

通过提高设计质量和生产力、提高人工流程的效率以及自动化处理一些耗时的任务,AI 模型正在为工程师们的工作提供支持。这些模型包括帮助工程师快速分析和改进设计的预测和优化工具,以及可以帮助解答工程师的问题、生成代码、调试设计问题等的 LLM。

NVIDIA 设计自动化研究总监 Mark Ren 在一场讲座中对上述这些模型及其应用进行了总体介绍。在另一场会议中,他还重点介绍了用于芯片设计的基于 AI 代理的系统。

由 LLM 驱动的 AI 代理可以被引导自主完成任务,从而在各行各业解锁广泛的应用。在微处理器设计方面,NVIDIA 研究人员正在开发基于代理的系统,这种系统可以使用定制的电路设计工具进行推理和采取行动,与经验丰富的设计师互动,并从人类和代理积累的经验的数据库中学习。

NVIDIA 专家们不仅正在打造这项技术,也在使用它。Mark Ren 分享了几个例子,包括工程师如何将 AI 代理用于时序报告分析、单元集群优化流程和代码生成。在第一届 IEEE 大语言模型辅助设计国际研讨会(LAD'24)上,这项单元集群优化工作荣膺最佳论文。

【近期会议】

10月30-31日,由宽禁带半导体国家工程研究中心主办的“化合物半导体先进技术及应用大会”将首次与大家在江苏·常州相见,邀您齐聚常州新城希尔顿酒店,解耦产业链市场布局!https://w.lwc.cn/s/uueAru

11月28-29日,“第二届半导体先进封测产业技术创新大会”将再次与各位相见于厦门,秉承“延续去年,创新今年”的思想,仍将由云天半导体与厦门大学联合主办,雅时国际商讯承办,邀您齐聚厦门·海沧融信华邑酒店共探行业发展!诚邀您报名参会:https://w.lwc.cn/s/n6FFne


声明:本网站部分文章转载自网络,转发仅为更大范围传播。 转载文章版权归原作者所有,如有异议,请联系我们修改或删除。联系邮箱:viviz@actintl.com.hk, 电话:0755-25988573

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110
  • 数据中心
    +关注

    关注

    16

    文章

    5524

    浏览量

    74658
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Amphenol LTW:数据中心互连解决方案的创新先锋

    在当今数据驱动的时代,数据中心的高效运行至关重要。Amphenol LTW(ALTW)作为一家专注于为恶劣环境提供卓越互连解决方案的企业,凭借其创新技术和丰富产品线,在数据中心领域展现
    的头像 发表于 12-09 16:11 360次阅读
    Amphenol LTW:<b class='flag-5'>数据中心</b>互连解决方案的<b class='flag-5'>创新</b>先锋

    英特尔携本地生态伙伴发布双路冷板式全域液冷服务器,引领数据中心散热与革新

    服务器。该创新方案由全本地生态赋,实现了关键热源的高比例液冷覆盖,提升可靠性与的同时,显
    发表于 11-19 21:21 1183次阅读
    英特尔携本地生态伙伴发布双路冷板式全域液冷服务器,引领<b class='flag-5'>数据中心</b>散热与<b class='flag-5'>能</b><b class='flag-5'>效</b>革新

    CPO技术加速未来数据中心网络发展

    生成式 AI 的快速普及正在推动数据中心网络需求的指数级增长。光电一体化封装(CPO)技术以其高带宽密度、低功耗和可靠性优势,成为满足 AI 时代网络性能需求的关键方案。CPO 通过光电融合显著
    的头像 发表于 09-23 14:24 1244次阅读

    华为数字能源亮相2025开放数据中心大会

    2025年9月9日—11日,由开放数据中心委员会(ODCC)主办的“2025开放数据中心大会北京国际会议中心成功举办。开放
    的头像 发表于 09-11 13:50 852次阅读

    村田中国亮相2025开放数据中心大会技术创新数据中心发展

    居先的综合电子元器件制造商村田中国(以下简称“村田”)也将携多款高效节能产品及解决方案亮相大会,以创新技术和高品质产品支撑数据中心高质量发展,展位号:2楼B13。   数字经济时代背景下,随着云服务、AI、物联网等
    的头像 发表于 09-04 14:48 840次阅读

    NVIDIAHot Chips 2025大会展示创新技术

    本周加利福尼亚州帕洛阿尔托(Palo Alto)举行的 Hot Chips 大会上,NVIDIA 专家详细介绍了
    的头像 发表于 08-27 12:52 1635次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI光模块的研发与量产先锋 睿海光电作为全球AI光模块的领先品牌,专注于为数据中心、超算中心及智算
    发表于 08-13 19:01

    村田中国亮相2025开放计算创新技术大会:以创新技术驱动智能化发展

    ”的主题,重点展示了包括电源、电感、传感器以及崭新集成封装解决方案在内的多款产品。今年,村田的创新技术与产品再次获得OCP的认可,荣获“开放计算最佳创新奖”,村田将始终致力于为数据中心
    的头像 发表于 08-07 16:09 653次阅读
    村田中国亮相2025开放计算<b class='flag-5'>创新技术</b><b class='flag-5'>大会</b>:以<b class='flag-5'>创新技术</b>驱动智能化发展

    如何破解数据中心难题?该方案提供创新策略

    ,占总能耗的 86% 左右,但传统管理手段难以追踪实时。高昂的能源消耗不仅增加了运营成本,也给能源供应带来了巨大压力。 政策法规推动:       2021 年 10 月,《数据中心
    的头像 发表于 04-14 11:38 714次阅读
    如何破解<b class='flag-5'>数据中心</b><b class='flag-5'>能</b><b class='flag-5'>效</b>难题?该方案提供<b class='flag-5'>创新</b>策略

    数据中心困局怎么解?安科瑞电气提供解决方案

    非常复杂,能源密度大,容易引发火灾等安全问,需要采取安全用电监测,以确保供电系统不受非授权人员干扰。 3、精细管理 数据中心能源消耗大,PUE压力大,电费成本高,通过搭建能源计量体系,可以实现精细化管理,
    的头像 发表于 04-01 14:01 604次阅读
    <b class='flag-5'>数据中心</b><b class='flag-5'>能</b><b class='flag-5'>效</b>困局怎么解?安科瑞电气提供解决方案

    适用于数据中心和AI时代的800G网络

    选择无拥塞路径,提高数据传输效率。 多租户性能隔离:确保不同用户任务之间带宽分配合理。 飞速(FS)800G光模块AI数据中心中的作用 为满足AI和大规模
    发表于 03-25 17:35

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    。这种光纤跳线专为需要节省空间和简化布线管理的200/400/800G数据中心设计。此外,该线缆体积更小,重量更轻,便于安装和维护,能够显著提升整体网络性能。下图展示了具备不同连接器的
    发表于 03-24 14:20

    施耐德电气即将亮相2025中国数据中心液冷技术大会

    以“液冷深融合”为主题,由CDCC与益企研究院共同主办的第三届中国数据中心液冷技术大会即将召开。会上将汇集多方数据中心行业的资深专家、研究学者与技术
    的头像 发表于 03-21 16:47 2221次阅读

    数据中心困局怎么解?这份方案给出妙方

    数据中心困局怎么解?这份方案给出妙方
    的头像 发表于 03-14 08:05 408次阅读
    <b class='flag-5'>数据中心</b><b class='flag-5'>能</b><b class='flag-5'>效</b>困局怎么解?这份方案给出妙方

    解锁数据中心效能密码:一站式综合管理方案

    解锁数据中心效能密码:一站式综合管理方案
    的头像 发表于 03-08 08:13 484次阅读
    解锁<b class='flag-5'>数据中心</b>效能密码:一站式综合<b class='flag-5'>能</b><b class='flag-5'>效</b>管理方案