0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA MGX变革AI工厂设计与部署

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-06-06 15:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

生成式 AI、大语言模型和高性能计算呈指数级增长,这对数据中心基础设施提出了前所未有的要求。传统服务器架构难以满足现代加速计算在功率密度、散热需求和快速迭代周期方面的要求。

本文介绍了NVIDIA MGX的优势,这是一种用于加速计算的模块化参考架构,它正在重新定义企业和云服务提供商构建可扩展 AI 工厂的方式。

为何模块化架构如今至关重要?

借助 NVIDIA MGX,合作伙伴可以像搭积木那样设计多种系统,从而节省开发成本并缩短产品上市时间。NVIDIA MGX 支持多代产品以及数百种 GPU、DPU、CPU、存储和网络的组合方案,适用于 AI、HPC 和数字孪生等领域。

当前推动 NVIDIA MGX 广泛应用的三大趋势包括:

功率密度与散热:现代 AI 计算的高要求促使功率密度不断提高,并推动液冷基础设施越来越普及。例如,NVIDIA Blackwell GPU 需要单机架功率最高可达 120 千瓦的全机架级解决方案,来满足由此产生的多项技术要求。MGX 通过液冷汇流排和歧管来满足这些需求,即使在 1400A 的负载下仍能将冷却液温差控制在 15°C 以内,从而能够在不影响性能或可靠性的情况下实现高密度的机架级部署。

异构工作负载支持:企业需要在同一数据中心内管理日益多样化的工作负载,包括使用 72-GPU NVIDIA GB200 NVL72 集群的 AI 后训练、需要测试时扩展的推理任务以及数字孪生模拟。MGX 的模块化混搭兼容性使企业能够针对特定工作负载定制基础设施,而且无需重新设计整个机架。

供应链敏捷性:MGX 支持在工厂内预集成约 80% 的组件,包括汇流排、冷板和电源线束。这简化了构建过程,使 ODM 厂商能够将部署周期从 12 个月缩短到 90 天以内。

基于这些趋势,像 MGX 这样标准化且稳定的架构能够确保可靠、兼容的服务器部署,使之在不牺牲互操作性的前提下,满足不断发展的性能需求。这种稳定性对企业实现基础设施投资的前瞻性布局至关重要,同时还保留了适应新兴工作负载和技术的灵活性。

庞大的 MGX 生态系统让企业可以灵活地选购多样化的组件并避免供应商锁定,这能够最大限度地降低投资风险、缩短交货时间并减少不确定性。由于合作伙伴能够自由地在广泛的认证组件中进行选择,MGX 使组织在优化其数据中心构建时能够降低成本、提高性能和供应链弹性。

基于标准的模块化 MGX 设计简化了集成过程,消除了对定制解决方案的需求,从而实现了快速、成本可控的部署和更具灵活性的扩展。这种方法不仅加快了上市时间,还简化了后续维护和升级,使企业能够根据需求增长和技术发展情况高效地扩展 AI 工厂。

MGX 机架系统内部构造

NVIDIA MGX 机架系统围绕两大核心模块构建:计算托盘和 NVLink 交换机托盘。每个计算托盘都配备了强大的 CPU 和 GPU 组合,例如 NVIDIA Grace CPU 与 NVIDIA Blackwell GPU 的搭配。它们为 AI 训练、推理和模拟工作负载提供核心加速计算性能。NVLink 交换机托盘则提供高速、低延迟的互连结构,将这些计算托盘连接在一起,实现 GPU 到 GPU 的无缝通信和整个机架的高效扩展。

然而,完整的 MGX 机架系统还远不止计算和交换机托盘。为了满足现代 AI 工厂对规模和效率的运行要求,该系统还依赖强大的机械电气和管道(冷却)基础设施,包括:

机械组件:模块化 MGX 机架本身为高密度数据中心部署提供了所需的结构完整性和可维护性。电源架支架将电源架固定在机架内,而滑轨则便于机架式设备的安装和维护。

电气组件:在电力输送与连接方面,MGX 54V 汇流排和 MGX 1400A 汇流排在整个机架内高效地分配电力,支持 HPC 负载。33 kW 电源架为系统提供充足的电力,而 MGX 电源线束可以灵活地连接电源架和汇流排。MGX 高速电缆保障高速数据传输,确保计算托盘和交换机托盘之间保持最优的通信。

管道或冷却组件:MGX 冷板为 GPU 提供高效液冷,维持其最佳运行温度。MGX 44RU 歧管用于管理机架内的冷却液分配。MGX NVQD(NVIDIA 快换接头)和 MGX UQD(通用快换接头)等快换接头实现液冷管线的快速安全连接,简化维护并最大限度地减少停机时间。

这种模块化方法可以显著节省时间,因为标准组件可以在工厂预安装,并通过即插即用的电源和冷却装置在现场集成。

NVIDIA GB200 NVL72 和 GB300 NVL72 系统中的 MGX 组件是基础架构,用于管理功率密度和热负载,使这些液冷机架级平台能够提供前所未有的 AI 性能。通过将先进的液冷 MGX 架构集成到 Blackwell 计算节点中,NVIDIA 满足了 GB200 NVL72 的单机架 120 千瓦的能耗需求,而 GB300 NVL72 的 72 个 Blackwell Ultra GPU 则需要更高的散热协调能力,以实现其高达 50 倍的 AI 推理输出提升。

这种设计理念需要机械工程团队(优化冷却液分配)、电源专家(高效电压调节)与制造合作伙伴(实现前端可维护性)之间的紧密协作。所有这些都通过 NVIDIA 的芯片级 NVLink 互连技术统一起来,该技术将 36 个 Grace CPU 和 72-144 个 GPU 绑定到一个统一的计算域中。这种联合设计的解决方案比前代 NVIDIA Hopper 集群的能效提升了 25 倍,展现了 MGX 的系统集成如何将原始算力转化为可扩展的 AI 基础设施。

变革 AI 工厂的设计与部署

NVIDIA MGX 为整个数据中心生态系统带来了切实的好处。

对于系统制造商来说,通过共享参考设计,MGX 使每个平台的研发成本降低了 200 万至 400 万美元,并使团队能够一次性认证整个 NVIDIA 软件栈,其中包括 NVIDIA CUDA-X、NVIDIA AI Enterprise 和 NVIDIA Omniverse。

对于数据中心运营商来说,能够使用一致的电源和冷却接口,实现从 8-GPU 节点无缝扩展到 144-GPU 机架,同时由于电源效率高达 94% 且冷却管道系统可重复使用,总体拥有成本降低了 50%。

对于 AI 工作负载来说,MGX 使各组织能够利用 NVLink 交换机在 72-GPU 的统一的计算域上训练参数量高达 1.8 万亿的模型,并在 72 节点机架上部署延迟波动小于 5 毫秒的推理集群。

开始使用

NVIDIA MGX 不仅仅是一项机架标准,更是 AI 工厂时代的基础。随着 200 多家生态系统合作伙伴已采用 MGX 组件,企业由此获得了通往未来 exascale 级 AI 的路径。随着 NVIDIA Blackwell、NVIDIA Rubin 等不断突破计算边界,MGX 模块化架构确保了 AI 工厂能够随着芯片创新的不断发展,并通过模块化升级路径来保护数据中心投资。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5732

    浏览量

    110344
  • 交换机
    +关注

    关注

    23

    文章

    2953

    浏览量

    105016
  • 数据中心
    +关注

    关注

    18

    文章

    5863

    浏览量

    75265
  • AI
    AI
    +关注

    关注

    91

    文章

    42209

    浏览量

    303210

原文标题:NVIDIA MGX 为 AI 工厂奠定坚实的模块化基础

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA与电信领导企业共建AI网格

    AT&T、T-Mobile、Comcast、Spectrum 等公司正在使用 NVIDIA AI 基础设施构建 AI 网格,Personal AI、Linker Vision、Serv
    的头像 发表于 04-10 16:16 467次阅读

    NVIDIA GTC 2026展示推动物理AI时代的虚拟世界

    NVIDIA GTC 大会标志着物理 AI 迎来了一个重要转折点:机器人、车辆和工厂正从单一的用例与孤立的部署,扩展为跨行业的复杂企业级工作负载。
    的头像 发表于 04-03 10:07 842次阅读

    神雲科技于GTC 2026展示一站式解决方案与弹性NVIDIA MGX,加速次世代AI发展

    参展 NVIDIA GTC 2026(展位编号 #100)。本次神雲科技以"Enterprise AI, Flexible by Design"为主题,展示其基于 NVIDIA MGX
    的头像 发表于 03-19 16:28 302次阅读

    NVIDIA发布Vera Rubin DSX AI Factory参考设计

    Rubin DSX 的 NVIDIA Omniverse DSX Blueprint,旨在为大规模设计、建设及运营提供物理精确的 AI 工厂数字孪生。
    的头像 发表于 03-18 14:42 749次阅读

    NVIDIA Spectrum-X以太网硅光技术助力AI工厂网络创新

    NVIDIA 将率先为 AI 工厂引入采用光电一体封装 (CPO) 的优化以太网网络,通过 NVIDIA Spectrum-X 以太网硅光技术,为
    的头像 发表于 01-14 09:06 1022次阅读
    <b class='flag-5'>NVIDIA</b> Spectrum-X以太网硅光技术助力<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>网络创新

    NVIDIA Omniverse基于Container的部署推流方案

    为了让客户能够高效安装和部署 NVIDIA Omniverse 及 NVIDIA Isaac 平台,NVIDIA 现已推出简单便捷的容器化部署
    的头像 发表于 12-17 10:17 1086次阅读
    <b class='flag-5'>NVIDIA</b> Omniverse基于Container的<b class='flag-5'>部署</b>推流方案

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI 超级工厂
    的头像 发表于 12-01 09:52 1094次阅读

    NVIDIA CEO黄仁勋畅谈AI时代最新蓝图

    在主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋勾勒出了 AI 时代的最新蓝图。从大规模 GPU 部署和量子技术突破,到 AI 工厂、机
    的头像 发表于 11-03 14:45 1024次阅读

    三星携手NVIDIA 以全新AI工厂引领全球智能制造转型

    AI驱动制造技术,推动半导体、移动设备与机器人产业的企业级数字化转型 部署50,000颗NVIDIA GPU并结合NVIDIA Omniverse,构建下一代
    的头像 发表于 11-03 13:41 2097次阅读

    NVIDIA IGX Thor 机器人处理器将实时物理 AI 引入工业和医疗边缘场景

    年 10 月 28 日——  AI 正由数字世界走向物理世界。在工厂车间和手术室等场景中,机器正逐步进化为能够实时观察、感知并作出决策的协作伙伴。   为加速这一变革NVIDIA
    的头像 发表于 10-29 10:31 1566次阅读
    <b class='flag-5'>NVIDIA</b> IGX Thor 机器人处理器将实时物理 <b class='flag-5'>AI</b> 引入工业和医疗边缘场景

    OpenAI和NVIDIA宣布达成合作,部署10吉瓦NVIDIA系统

    此次合作将助力 OpenAI 构建和部署至少 10 吉瓦(gigawatt)的 AI 数据中心,这些数据中心将采用 NVIDIA 系统,包含数百万块 NVIDIA GPU,为 Open
    的头像 发表于 09-23 14:37 1650次阅读
    OpenAI和<b class='flag-5'>NVIDIA</b>宣布达成合作,<b class='flag-5'>部署</b>10吉瓦<b class='flag-5'>NVIDIA</b>系统

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    人员将能够在 AI 工厂的构建中轻松部署世界领先的 AI 加速器。作为一款创新解决方案,Cadence Reality Digital Twin Platform 能够在物理实施之前,
    的头像 发表于 09-15 15:19 1751次阅读

    NVIDIA硅光技术助力迈向百万GPU AI工厂

    在全球范围内,AI 工厂正在崛起 —— 大量的这些新型数据中心并非为提供网页或电子邮件服务而建,而是用于训练和部署智能本身。互联网巨头们已经为其客户在 AI 云基础设施上投资了数十亿美
    的头像 发表于 08-27 12:34 1492次阅读

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 开源其物理 AI 平台 NVIDIA Cosmos 中的关键模型——NVIDIA Cosmos Reason-1-7B。这款先进的多模态大模型能够理解视频、进行物理
    的头像 发表于 07-09 10:17 1104次阅读

    NVIDIA计划打造全球首个工业AI云平台

    NVIDIA 宣布,其正在为欧洲制造商构建全球首个工业 AI 云。这家总部位于德国的 AI 工厂将配备 1 万个 GPU,包括通过 NVIDIA
    的头像 发表于 06-16 14:17 1760次阅读