0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软全新AI超级工厂Fairwater在亚特兰大落成

微软科技 来源:微软科技 2025-12-09 17:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软正式发布位于美国乔治亚州亚特兰大的Azure AI 数据中心 Fairwater 站点。全新的数据中心将与威斯康星州的首个 Fairwater 站点、前几代 AI 超级计算机以及全球 Azure 数据中心深度互联,共同构建首个全球规模的 AI 超级工厂 Fairwater 。

|重新定义 AI 数据中心架构

为了满足激增的 AI 计算需求,微软重新定义了 AI 数据中心的架构设计和系统运行方式。Fairwater 打破传统云数据中心模式,采用单一扁平网络架构,可以将数十万颗最新的 NVIDIA GB200、GB300 GPU 组建成一台真正意义上的超级计算机。这些创新源于微软在数据中心与网络设计上的数十年积累,以及支撑全球最大规模 AI 技术训练任务的深厚经验。

|灵活应对多样化 AI 技术工作负载

Fairwater 不仅适用于下一代前沿模型训练,还在设计之初就考虑到了多场景弹性调度。模型训练包含预训练、微调、强化学习、合成数据生成等多种不同类型的工作负载。

微软还为此部署了专用的 AI WAN 广域网骨干,把每个 Fairwater 站点连成一个高度弹性的整体,实现跨站点的动态算力调度,让不同任务都能高效运行,最大化整个系统的 GPU 利用率。

接下来,我们将带您深入了解 Fairwater 背后的关键技术创新——从数据中心的建造方式,到站点内部及跨站点的网络设计,全面解读“ AI 超级工厂”的技术秘密。

01 极致算力密度:

突破物理极限的 Azure AI 架构

现代 AI 技术基础设施的性能正面临物理定律的挑战,光速延迟正在成为限制加速器、计算与存储深度整合的关键因素。Fairwater 的设计核心,就是把算力密度做到极致,在机架内部、机架之间尽可能缩短延迟,从而将整体系统性能推到新的高度。

想要实现这种算力密度,冷却技术是关键。Fairwater 数据中心采用全场液冷系统,并通过闭环循环设计—— 冷却液在初次注入后会被持续循环使用,不会蒸发流失,实现高效与可持续。初始注水量仅相当于 20 户家庭一年的用水量,且可持续使用 6 年以上,仅在水质监测异常时更换。

液冷不仅提升散热效率,还让机架功率达到约 140kW/机架,1,360kW/排。先进冷却技术确保在高负载下保持稳定性能,让超大规模训练任务高效运行。

为了进一步提升算力密度,Fairwater 还采用了双层数据中心建筑设计。原因很简单:因为 AI 技术工作负载对延迟极度敏感,哪怕是线缆长度的微小差异,都可能影响集群性能。

在 Fairwater 中,每一块 GPU 都需要与其他 GPU 互联。通过三维空间布局,双层设计让机架分布更紧凑,显著缩短线缆长度,从而带来更低延迟、更高带宽、更强可靠性以及更优成本控制。

02 高可用,低成本供电

为了支撑前所未有的算力需求,Fairwater 不仅在网络架构上创新,还在供电模式上突破传统。亚特兰大站点选址基于电网韧性,能以3×9 成本实现 4×9 可用性,无需传统冗余方案(如现场发电、UPS、双路配电),降低客户成本并加快交付。

同时,微软与行业伙伴联合开发电力管理解决方案,应对大规模 AI 技术任务带来的电网波动:

软件层面:在低负载时段自动引入补充性任务,平滑电力波动

硬件层面:让 GPU 自主控制功率阈值,抑制瞬时冲击

现场储能系统:通过本地储能吸收波动,而无需额外消耗电力

这些方案让 Fairwater 能在 AI 技术需求持续攀升的情况下保持平稳运行。

03 尖端加速器与网络系统

Fairwater 的强大性能,来自于专为 AI 技术打造的服务器架构、先进加速器和全新的网络系统。

单一扁平网络:突破传统 Clos 网络限制,支持数十万 GPU 互联

机架级互联:每机架最多容纳 72 块 Blackwell GPU,通过 NVLink 实现超低延迟通信

极致算力密度:支持 FP4 等低精度格式,提升 FLOPS 与内存效率

带宽与内存:每机架提供 1.8TB GPU 间带宽,每块 GPU 可访问 14TB 共享内存

为了让数十万块 GPU 像一台超级计算机一样高效运作,Fairwater 采用横向扩展网络架构,将机架扩展为 Pod 和集群,实现最少跳数、最低延迟的互联。

核心技术亮点

双层以太网后端架构:支持超大规模集群,GPU 间互联速率高达 800Gbps

SONiC 网络操作系统:微软自研,避免单一供应商锁定,降低成本,支持通用硬件

网络优化技术:多层面重构性能,实现拥塞控制、快速重传和智能负载均衡,保障超低延迟与高可靠性

04 行星级规模

即便有这么多创新,面对动辄万亿参数的大模型训练,单个数据中心的电力和空间仍难以承载不断上升的算力需求。为此,微软打造了一个专用的AI WAN 光网络,将 Fairwater 的纵向扩展与横向扩展网络进一步向外延伸。

依托微软多年的超大规模基础设施经验,我们仅在过去一年内就在全美铺设了12 万英里的新光纤,全面增强 AI 技术网络的覆盖与稳定性。

凭借这条高性能、高可用的骨干网络,我们可以把不同世代的超级计算机跨地域联成一个整体——打造真正意义上的AI 超级工厂(AI Superfactory)。

开发者可以根据任务需求,在单站点内部的 scale-up / scale-out 网络之间灵活切换,也可以跨站点通过 AI WAN 调度算力资源。

这与过去所有流量都必须走同一个横向扩展网络的模式截然不同。如今,任务可以基于需求选择最适合的网络路径,不仅提升效率,也让整个基础设施更灵活、更高利用率。

05 下一代 Azure AI 基础设施的跃迁

全新的亚特兰大 Fairwater 站点,是 Azure AI 基础设施迈出的又一大步,也是微软多年支撑全球最大规模 AI 技术训练经验的成果总结。

它融合了突破性的算力密度设计、高效可持续的能源体系以及世界领先的网络架构,并与全球各地的 Azure AI 数据中心深度互联,共同构成首个全球规模的 AI 超级工厂。

对企业与开发者而言,这意味着更容易将 AI 技术融入现有工作流、更快把想法变成现实、更轻松构建出曾经难以实现的创新型 AI 技术应用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6766

    浏览量

    108180
  • 数据中心
    +关注

    关注

    18

    文章

    5867

    浏览量

    75274
  • AI
    AI
    +关注

    关注

    91

    文章

    42239

    浏览量

    303275
  • 超级工厂
    +关注

    关注

    0

    文章

    105

    浏览量

    4568

原文标题:微软全新AI超级工厂落成,GPU密度爆表,接近光速传输!

文章出处:【微信号:mstech2014,微信公众号:微软科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    直播预告|玄铁 x Canonical:从本地推理到 AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    大模型浪潮下,AI 算力正向“本地推理”与“AI 工厂”两极延伸,而传统架构低延迟与规模化之间往往顾此失彼。RISC-V 的可定制特性,提供了一条新路径——端侧精简高效,云侧通过众核
    发表于 05-15 12:15

    奥比中光3D视觉产品助力北美智慧物流应用落地

    近日,北美规模最大、影响力最广的物流与供应链技术盛会——MODEX 2026美国亚特兰大举行,奥比中光携多款3D视觉产品与行业解决方案参展。
    的头像 发表于 04-23 09:35 560次阅读

    大事件 | 桥田磁力换模产品全新厂房落成

    大事件 | 桥田磁力换模产品全新厂房落成 桥田智能启用上海新生产基地,磁力换模产能将迎来大幅升级。 2026年3月20日,上海桥田智能设备有限公司全新厂房-5号楼生产基地正式投产,总面积约4000平米,主要用于磁力换模产品的
    的头像 发表于 03-25 13:14 290次阅读
    大事件 | 桥田磁力换模产品<b class='flag-5'>全新</b>厂房<b class='flag-5'>落成</b>

    微软Azure数据中心国际版全面对接NVIDIA Rubin平台

    深度整合,AI超级工厂中消除了扩展瓶颈。这种从硬件到编排层的协同设计,确保了算力资源的高效利用,助力客户加速计算时代实现更快的部署与创新
    的头像 发表于 03-03 09:56 630次阅读

    微软科技通过AI技术和云创新驱动零售业的未来

    及Agentic AI等技术重构运营流程,从门店到仓储全面提升效率与体验,全新的“超级智能体”可帮助员工快速获取信息,推动品牌迈向DTC优先、以粉丝为中心的新时代。
    的头像 发表于 12-09 17:39 1497次阅读

    NVIDIA扩大与微软合作推动AI超级工厂建设

    Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括由 NVIDIA Blackwell 平台驱动的全新 Microsoft
    的头像 发表于 12-01 09:52 1098次阅读

    腾讯地图AI时代的全新思考与实践

    9月17日,2025腾讯全球数字生态大会地图专场上,腾讯集团副总裁、腾讯智慧出行总裁钟翔平分享了腾讯地图AI时代的全新思考与实践。
    的头像 发表于 09-18 10:32 1119次阅读

    微软Visual Studio 2026 发布!AI 深度融合、性能提升

    “  微软发布 Visual Studio 2026 预览版,新版本以深度融合的 AI Copilot 为核心,结合全新的 Fluent Design 界面与显著的性能提升,旨在打造前所未有的智能
    的头像 发表于 09-16 11:17 2502次阅读
    <b class='flag-5'>微软</b>Visual Studio 2026 发布!<b class='flag-5'>AI</b> 深度融合、性能提升

    使用OpenUSD和SimReady资产构建AI工厂

    设计。工程团队现在可以逼真的虚拟世界中设计和测试整个 AI 工厂,帮助他们及早发现问题,从而构建更智能、更可靠的设施。
    的头像 发表于 09-06 15:23 1759次阅读
    使用OpenUSD和SimReady资产构建<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>

    天合储能智能集成工厂全新升级

    近日,天合储能智能集成工厂顺利完成升级改造。天合光能全球产品总裁兼天合储能总裁倪莉莉、天合光能全球营销总裁杨豹及多位领导代表出席落成仪式,共同见证这一重要时刻。
    的头像 发表于 08-04 17:07 1387次阅读

    摩尔线程亮相WAIC 2025:以“AI工厂”理念驱动算力进化,全栈AI应用赋能千行百业

    模型的“超级工厂”。此次参会不仅彰显了摩尔线程AI基础设施领域的系统性创新,更通过多行业案例展现了国产GPU技术的广泛应用前景。     首提“A
    的头像 发表于 07-28 11:34 2673次阅读
    摩尔线程亮相WAIC 2025:以“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”理念驱动算力进化,全栈<b class='flag-5'>AI</b>应用赋能千行百业

    摩尔线程“AI工厂”:五大核心技术支撑,打造大模型训练超级工厂

    2025年7月25日,上海——在世界人工智能大会(WAIC 2025)开幕前夕,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,并创新性提出“AI工厂”理念。摩尔线程创始人兼CEO张建中主题
    的头像 发表于 07-28 11:28 4971次阅读
    摩尔线程“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”:五大核心技术支撑,打造大模型训练<b class='flag-5'>超级</b><b class='flag-5'>工厂</b>

    摩尔线程“AI工厂”:以系统级创新定义新一代AI基础设施

    2025年7月25日,上海——在世界人工智能大会(WAIC 2025)开幕前夕,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,并创新性提出“AI工厂”理念。摩尔线程创始人兼CEO张建中主题
    发表于 07-28 10:34 2997次阅读
    摩尔线程“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”:以系统级创新定义新一代<b class='flag-5'>AI</b>基础设施

    新思科技携手微软借助AI技术加速芯片设计

    近日,微软Build大会在西雅图盛大开幕,聚焦AI加速各行业(包括芯片设计行业)科学突破方面的变革潜力。作为Microsoft Discovery平台发布的启动合作伙伴,新思科技亮相本次大会,并携手
    的头像 发表于 06-27 10:23 1344次阅读

    NVIDIAICRA 2025展示多项最新研究成果

    亚特兰大举行的国际机器人与自动化大会 (ICRA) 上,NVIDIA 展示了其在生成式 AI、仿真和自主操控领域的多项研究成果。
    的头像 发表于 06-06 14:56 1675次阅读