0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软Azure数据中心国际版全面对接NVIDIA Rubin平台

微软科技 来源:微软科技 2026-03-03 09:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2026年CES大会见证了NVIDIA Rubin问世,而微软Azure数据中心(国际版)凭借前瞻战略已实现全面对接。通过在散热与网络领域的超前布局,Azure(国际版)将系统化方法与Rubin架构深度整合,在AI超级工厂中消除了扩展瓶颈。这种从硬件到编排层的协同设计,确保了算力资源的高效利用,助力客户在加速计算时代实现更快的部署与创新影响。

在2026年消费电子展(CES)上,NVIDIA Rubin 平台重磅问世,而与之同时展现和验证的,还有 Microsoft Azure(国际版)的部署就绪能力。微软的远瞻性数据中心战略正是为这类时刻而设计,使 NVIDIA 的下一代系统可以直接嵌入我们的基础设施。早在数年之前,我们就已超前预判行业趋势,使基础设施预先满足了其对电力、散热、内存和网络的需求。而我们与 NVIDIA 的长期合作确保了 Rubin 能够直接融入 Microsoft Azure(国际版)的前瞻性平台设计。

01为未来而设计

Microsoft Azure(国际版)的 AI 数据中心专为加速计算的未来而设计。这使得 NVIDIA Vera Rubin NVL72 机架能够无缝集成到 Microsoft Azure(国际版)最大的下一代 AI 超级工厂中,从威斯康星到亚特兰大,无论是现有的 Fairwater 站点还是未来的新建项目,都能支持这一特性。

最新的 NVIDIA AI 基础设施需要对电力、冷却和性能优化进行重大升级,而Microsoft Azure(国际版)在 Fairwater 站点以及多年来多次升级周期中积累的经验表明,我们有能力随着技术的进步,灵活地增强并扩展 AI 技术基础设施。

02更成熟的Azure 交付规模与性能

微软在设计和部署可扩展 AI 基础设施方面拥有多年经验,并广受市场验证。随着每一次AI 技术的重大进步,这些基础设施也同样在演进。通过与 NVIDIA 每一代加速计算基础设施保持同步,微软也在迅速整合 NVIDIA 的创新技术并实现大规模交付。

我们于早期大规模部署的 NVIDIA Ampere 和 Hopper GPU,通过 NVIDIA Quantum-2 InfiniBand 网络连接,对 GPT-3.5 等模型的孵化与诞生也发挥了重要作用,并有其他集群创造了超级计算性能记录,这证明了,相较于其他公司,我们能够更快地让下一代系统上线,并获得更高的实际性能。

我们展示了 NVIDIA GB200 NVL72 和 NVIDIA GB300 NVL72 平台的首次及最大规模实现,这些平台以机架形式整合起了一套单一超级计算机,能显著提升 AI 模型的训练速度,帮助 Microsoft Azure(国际版)始终成为寻求先进 AI 技术能力的客户首选。

03Azure 的系统化方法

Microsoft Azure(国际版)的设计旨在让计算、网络、存储、软件和基础设施作为一个集成平台协同工作。其构建的持久优势,实现了成本与性能随时间推移而持续累积的突破。

最大化 GPU 的利用率需要对这一系统中的每一层进行优化。除了 Microsoft Azure(国际版)能够尽早采用 NVIDIA 新的加速计算平台外,Microsoft Azure(国际版)的优势还源自周边平台,例如高吞吐量的 Blob 存储、受实际生产模式影响的邻近放置组 (Proximity Placement Groups) 和区域级设计,以及针对大规模集群低开销调度优化的 CycleCloud 和 AKS 等编排层。

Azure Boost 和其他卸载引擎解决了 IO、网络和存储瓶颈,使模型能够平稳扩展。更快的存储馈送更大的集群,更强的网络维持其运行,而优化的编排则保持端到端性能的稳定。第一方创新强化了这一闭环:液冷热交换单元可满足严苛的散热需求,Azure 硬件安全模块(HSM)芯片卸载安全工作,Azure Cobalt 则为通用计算和 AI 相关任务提供卓越的性能和效率。这些集成共同确保了整个系统的高效扩展,使 GPU 投资发挥最大价值。

凭借这种系统化方法,Microsoft Azure(国际版)已全面对接 Rubin 平台。我们正在交付的新系统及端到端平台,在设计之初就已精准匹配 Rubin 的各项技术需求。

04运行 NVIDIA Rubin 平台

NVIDIA Vera Rubin 超级芯片将提供每芯片 50 PF 的 NVFP4 推理性能,以及每机架 3.6 EF 的 NVFP4 性能,相比 NVIDIA GB200 NVL72 机架系统实现了五倍的性能跃升。

Microsoft Azure(国际版)现已纳入了 Rubin 所需的核心架构假设:

◉NVIDIA NVLink 的演进:Vera Rubin NVL72 系统中预期的第六代 NVIDIA NVLink 互联带宽达到约 260 TB/s 的纵向扩展带宽,Microsoft Azure(国际版)的机架架构已经过重新设计,旨在充分发挥这些带宽和拓扑优势。

◉高性能横向扩展网络:Rubin AI 基础设施依赖于由 Microsoft Azure(国际版)网络基础设施提供的超快 NVIDIA ConnectX-9 1,600 Gb/s 网络,该基础设施专为支持大规模 AI 工作负载而构建。

◉HBM4/HBM4e 散热与密度规划:Rubin 内存栈需要更窄的温控区间和更高的机架密度;Microsoft Azure(国际版)的冷却、电力范围和机架几何结构已经完成升级,以应对相同的约束。

◉SOCAMM2 驱动的内存扩展:Rubin 超级芯片采用新的内存扩展架构;Microsoft Azure(国际版)平台已经集成并验证了类似的内存扩展行为,以在大规模环境下持续为模型提供数据。

◉扩展 GPU 芯片尺寸及多芯片封装:Rubin 转向更大规模的 GPU 占用空间和多芯片布局。Microsoft Azure(国际版)的供应链、机械设计和编排层已针对这些物理和逻辑扩展特性进行了预调优。

Microsoft Azure(国际版)在设计 Rubin 等下一代加速计算平台时的方法已在数年间得到证实,包括以下重要里程碑:

在多代 GPU 中运行全球最大的商业 InfiniBand 部署。

构建了可靠性层和拥塞管理技术,相比竞争对手释放了更高的集群利用率和更大的任务规模,这体现在我们能够发布行业领先的大规模基准测试结果上。例如,竞争对手从未复制过的多机架 MLPerf 运行。

从底层开始与 Grace Blackwell 和 Vera Rubin 共同设计的 AI 数据中心,旨在最大化集群层面的性能和单位成本性能。

05创新设计让 Azure 脱颖而出

◉Pod 交换架构:为了实现快速服务,Microsoft Azure(国际版)的 GPU 服务器托盘设计为可快速更换,无需大量重新布线,从而提高了运行时间。

◉冷却抽象层:Rubin 的多芯片、高带宽组件需要复杂的散热余量,但Fairwater 已经能够应对这一挑战,避免了昂贵的改造周期。

◉下一代电力设计:Vera Rubin NVL72 要求不断增加的功率密度,而Microsoft Azure(国际版)多年的电力重新设计(液冷循环修订、CDU 扩展和高安培母线槽)确保了即时部署能力。

◉AI 超级工厂模块化:与其他超大规模云厂商不同,微软构建的是区域级超级计算机而非单一的巨型站点,这使得新SKU 在全球范围内的推出更加可控。

06将协同设计转化为用户利益

NVIDIA Rubin 平台标志着加速计算向前迈出了重要一步,而 Microsoft Azure(国际版)的 AI 数据中心和超级工厂已经完成了能够充分利用这一优势的工程设计。

多年来在互联、内存系统、散热、封装和机架规模架构方面与 NVIDIA 的协同设计,意味着 NVIDIA Rubin 可以直接集成到 Microsoft Azure(国际版)平台而无需返工。NVIDIA Rubin 的核心假设也已经反映在我们的网络、电力、冷却、编排和 Pod 交换设计原则中。这种协同一致为客户带来了即时利益,让他们在构建下一个大规模 AI 时代时,能够实现更快的部署、更快的扩展和更早的影响力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6760

    浏览量

    108159
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110291
  • Azure
    +关注

    关注

    1

    文章

    130

    浏览量

    13737

原文标题:微软Azure数据中心超前布局,全面对接NVIDIA下一代算力架构

文章出处:【微信号:mstech2014,微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Jump Trading采用NVIDIA Rubin平台大幅提升研究速度

    Jump Trading 将成为金融服务领域首批采用 NVIDIA Rubin 平台的交易公司之一,以加速由 AI 驱动的资本市场研究和金融建模。
    的头像 发表于 03-25 10:03 413次阅读

    NVIDIA发布Vera Rubin DSX AI Factory参考设计

    NVIDIA 今日宣布推出 NVIDIA Vera Rubin DSX AI Factory 参考设计,这是一份用于构建协同设计的 AI 基础设施的指南。同时正式发布完全兼容 NVIDIA
    的头像 发表于 03-18 14:42 728次阅读

    1分钟带你了解数据中心供电架构 #电子元器件 #数据中心 #供电架构

    数据中心
    沛城芯动力
    发布于 :2026年02月03日 15:39:04

    迈向吉瓦级AI工厂的能源变革:英伟达Rubin平台电源架构解析

    转变。英伟达(NVIDIA)推出的Rubin平台,作为Blackwell架构的继任者,不仅是算力密度的又一次飞跃,更是对数据中心能源基础设施的一次极限挑战。
    的头像 发表于 01-15 17:42 1106次阅读
    迈向吉瓦级AI工厂的能源变革:英伟达<b class='flag-5'>Rubin</b><b class='flag-5'>平台</b>电源架构解析

    NVIDIA DGX SuperPOD为Rubin平台横向扩展提供蓝图

    NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,将推理 token 成本降至 NVIDIA Blackwell
    的头像 发表于 01-14 09:14 1003次阅读

    Supermicro宣布支持即将推出的NVIDIA Vera Rubin NVL72与HGX Rubin NVL8,并扩大机柜制造产能,提供更佳的液冷AI解决方案

    /边缘领域的全方位IT解决方案供应商,宣布扩大制造产能、强化液冷技术,并与NVIDIA展开合作,推动NVIDIA Vera RubinRubin
    的头像 发表于 01-07 16:49 1002次阅读
    Supermicro宣布支持即将推出的<b class='flag-5'>NVIDIA</b> Vera <b class='flag-5'>Rubin</b> NVL72与HGX <b class='flag-5'>Rubin</b> NVL8,并扩大机柜制造产能,提供更佳的液冷AI解决方案

    微软全新AI超级工厂Fairwater在亚特兰大落成

    微软正式发布位于美国乔治亚州亚特兰大的 Azure AI 数据中心 Fairwater 站点。全新的数据中心将与威斯康星州的首个 Fairwater 站点、前几代 AI 超级计算机以及
    的头像 发表于 12-09 17:31 918次阅读

    科通技术亮相2025上海国际数据中心及云计算产业展览会

    2025年11月18日至20日,CDCE国际数据中心及云计算展在上海新国际博览中心成功举办。作为NVIDIA Networking及
    的头像 发表于 12-02 10:21 1045次阅读

    微软最新AI技术数据中心即将启用

    微软在美国威斯康星州 Mount Pleasant 建设的最新AI技术数据中心即将投入使用,预计 2026 年初正式启用。第二座同规模中心也在规划中,总投资将超过 70 亿美元。
    的头像 发表于 11-05 16:37 1356次阅读

    OpenAI Sora 2模型上线微软Azure AI Foundry国际版

    我们非常激动地宣布,OpenAI 的新一代多模态视频生成模型 Sora 2 现已在 Azure AI Foundry(国际版)上线,进入公共预览阶段。
    的头像 发表于 10-22 09:44 1044次阅读
    OpenAI Sora 2模型上线<b class='flag-5'>微软</b><b class='flag-5'>Azure</b> AI Foundry<b class='flag-5'>国际版</b>

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    [1]  利用搭载 DGX GB200 系统的 NVIDIA DGX SuperPOD[2] 数字孪生系统实现了库的重大扩展 。借助 NVIDIA 高性能加速计算平台的新模型,数据中心
    的头像 发表于 09-15 15:19 1738次阅读

    微软企业级应用AI能力全面升级

    微软宣布,已将 OpenAI 迄今为止最具突破性的的 AI 技术系统 GPT-5 全面集成至其产品生态中,全面增强平台的的推理、代码生成与对话体验。最新版 GPT-5 已在 Micro
    的头像 发表于 08-15 11:44 1588次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    NVIDIA Quantum-2交换机等主流设备。 平滑扩展:与现有400G/100G设备无缝互通,降低数据中心升级成本。 多场景覆盖:从AI训练集群的“大象流”到AI推理的碎片化流量,均可通过智能
    发表于 08-13 19:01

    微软推出全新Microsoft Sentinel数据国际版

    近期,MicrosoftSentinel数据湖(国际版)正式开放公开预览,重塑安全运营架构。它通过统一所有安全数据,以远低于传统方案的成本,解决了海量数据管理和可见性不足的痛点。这一新
    的头像 发表于 08-04 15:36 1181次阅读

    微软Microsoft Azure AI Foundry国际版的十大技术突破

    当传统软件开发还在以“季度”为单位迭代时,Microsoft Azure Al Foundry(国际版)正掀起一场效率革命:通过整合代码、协作与云的全栈平台,帮助开发者在几天内完成从创意到生产的全
    的头像 发表于 05-29 16:28 1973次阅读