0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊云科技AI Networking解决方案回顾

奇异摩尔 来源:奇异摩尔 2024-12-27 11:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前一段时间的2024 re:Invent 大会中,亚马逊云科技可谓是重磅连连,发布了全套最新AI networking基础设施方案。亚马逊云科技公用计算高级副总裁 Peter DeSantis 首先引用了一篇 2020 年的论文:“AI 场景中巨量的计算负载,并不能完全通过 Scale Out AI 集群来解决,同样也需要 Scale Up单台 AI 服务器的能力。” 基于这样的设计思想,Peter 推出了 Trainium2 Server 和 Trainium2 UltraServer。同时单个芯片性能对于集群的总效率也起到了重要的基础算力作用,本文主要回顾亚马逊最新的AI Networking片内/片间/网间综合解决方案。

Trainium2 服务器

Trainium2 和 Trainium2-Ultra 服务器的构建块就是我们所说的 Trainium2“物理服务器”。每个 Trainium2 物理服务器都有一个独特的架构,占用 18 个机架单元 (RU),由一个 2 机架单元 (2U) CPU 机头托盘组成,该托盘连接到八个 2U 计算托盘。在服务器的背面,所有计算托盘都使用类似于 GB200 NVL36 的无源铜背板连接在一起形成一个 4×4 2D 环面,不同之处在于,对于 GB200 NVL36,背板将每个 GPU 连接到多个 NVSwitches,而在 Trainium2 上,没有使用交换机,所有连接都只是两个加速器之间的点对点连接。

每个 2U 计算托盘有两个 Trainium 芯片,没有 CPU。这与 GB200 NVL72 架构不同,在 GB200 NVL72 架构中,每个计算托盘在同一个托盘中同时具有 CPU 和 GPU。每个 Trainium2 计算托盘通常也被称为 JBOG,即“只是一堆 GPU”,因为每个计算托盘没有任何 CPU,不能独立运行。

72dc5958-c368-11ef-9310-92fbcf53809c.png

(来源:Semianalysis)

Scale Inside 单个芯片片内互联

Trainium2芯片

于 2023 年发布, Trainium2 采用了Multi-Die Chiplet架构,并使用CoWoS-S/R先进封装技术,将计算芯粒和(HBM)模块集成在一个紧凑的封装(Package)内。具体而言,每个 Trainium2 单卡内封装了 2 个 Trainium2 计算Die,而每个Die旁边都配备了 2 块 96GB HBM3 内存模块,提供高达 46TB/s 的带宽。目前没有提及Multi-die间的互联协议,暂且理解为私有协议。 这种先进的封装设计克服了芯片尺寸的工程极限,最大限度地缩小了计算和内存之间的距离,使用大量高带宽、低延迟的互联将它们连接在一起。这不仅降低了延迟,还能使用更高效的协议交换数据,提高了性能。

在计算核心方面,Trainium2 由少量大型 NeuronCore 组成,每个 NeuronCore 内部集成了张量引擎、矢量引擎、标量引擎和 GPSIMD 引擎,各司其职协同工作。这种设计思路与传统 GPGPU 使用大量较小张量核心形成鲜明对比,大型核心在处理 Gen AI 工作负载时能够有效减少控制开销。目前大模型参数量级常常到达数千亿甚至数万亿,Trainium2 是面向 AI 大模型的高性能训练芯片,与第一代 Trainium 芯片相比,Trainium2 训练速度提升至 4 倍,能够部署在多达 10 万个芯片的计算集群中,大幅降低了模型训练时间,同时能效提升多达 2 倍。

Scale Up超节点间互联

在竞争愈发激烈的 AI 大模型领域中,如何能够更高效的、更低成本的、更快速扩容满足算力需求的能力,就成为了赢得市场的关键之一。正如亚马逊云科技公用计算高级副总裁 Peter 所言:“在推动前沿模型的发展的进程中,对于极为苛刻的人工智能工作负载来说,再强大的计算能力也永远不够。”Scale Up 所带来的好处就是为大模型训练提供了更大的训练成功率、更高效的梯度数据汇聚与同步、更低的能源损耗。基于 Trainium2 UltraServer 支撑的 Amazon EC2 Trn2 UltraServer 可以提供高达 83.2 FP8 PetaFLOPS 的性能以及 6TB 的 HBM3 内存,峰值带宽达到 185 TB/s,并借助 12.8 Tb/s EFA(Elastic Fabric Adapter)网络进行互连。让 AI 工程师能够考虑在单台 64 卡一体机内以更短的时间训练出更加复杂、更加精准的 AI 模型。

AWS Scale Up也是一个超节点的HBD域, 其机架互联结构和NVL36类似,由2个机架紧密耦合组成。一个机架32个GPU计算卡,超节点HBD域共64个GPU计算卡互联。Scale Up超节点是业界目前正在积极探索的领域,尽管生态存在技术路径的差异,但基于开放协议的技术路径将是未来GPU互联的关键,也是国内未来构建更大规模、更高效率集群的必经之路。

730a1e9c-c368-11ef-9310-92fbcf53809c.png

(来源:Semianalysis)

Trn2-Ultra SKU 由每个纵向扩展域的 4 个 16 芯片物理服务器组成,因此每个纵向扩展域由 64 个芯片组成,由两个机架组成,其配置类似于 GB200 NVL36x2。为了沿 z 轴形成圆环,每个物理服务器都使用一组有源铜缆连接到其他两个物理服务器。

NeuronLink 私有协议构成TB级互联

Trainium2 UltraServer 一定要提及的就是 NeuronLink,它是一种亚马逊云科技专有的网络互联技术,可使多台 Trainium2 Server 连接起来,成为一台逻辑上的服务器。我们可以理解Neuronlink和NVlink类似是一种基于私有的GPU/xPU片间通信协议。

NeuronLink 技术可以让 Trainium2 Server 之间直接访问彼此的内存,并提供每秒 2 TB 的带宽(高于目前的NVlink),延迟仅为 1 微秒。NeuronLink 技术使得多台 Trainium2 Server 就像是一台超级计算机一样工作,故称之为 “UltraServer”。“这正是训练万亿级参数的大型人工智能模型所需要的超级计算平台,非常强大!” Peter 介绍道。

732d08ee-c368-11ef-9310-92fbcf53809c.png

(来源:Semianalysis)

Scale Out 十万卡集群网间互联

在 Scale Out 层面,亚马逊云科技正在与 Anthropic 合作部署 Rainier 项目,Anthropic 联合创始人兼首席计算官 Tom Brown 宣布下一代 Claude 模型将在 Project Rainier 上训练。Rainier 项目是一个庞大的 AI 超级计算集群,包含数十万个 Trainium2 芯片,预计可提供约 130 FP8 ExaFLOPS 的超强性能,运算能力是以往集群的 5 倍多,将为 Anthropic 的下一代 Claude AI 模型提供支持。Rainier 项目将会帮助 Anthropic 的客户可以用更低价格、更快速度使用到更高智能的 Claude AI 大模型服务。

73499ab8-c368-11ef-9310-92fbcf53809c.png

(来源:Semianalysis)

对于 Trn2,每个计算托盘最多有 8 个 200G EFAv3 NIC网卡,每个横向扩展以太网芯片可提供高达 800Gbit/s 的速度。从计算托盘连接到 CPU 托盘的笼子也需要一个重定时器。计算托盘左侧的 Trainium2 芯片将使用与 CPU 托盘连接的前 8 个通道,而右侧的 Trainium2 芯片将使用连接到 CPU 托盘的最后 8 个通道。

对于 Leaf 和 Spine 交换机,AWS 将使用基于 Broadcom Tomahawk4的 1U 25.6T 白盒交换机。AWS 不使用多个交换机来组成基于机箱的模块化交换机,因为这种设置的爆炸半径很大。如果机箱发生故障,则机箱连接的所有线卡和链路都会发生故障。这可能涉及数百个 Trainium2 芯片。

Front End 前端网络

我们提及一下连接传统以太网的前端网络,亚马逊使用的Nitro 芯片作为世界上最早发布的 DPU 之一,其旨在实现 Network、Storage、Hypervisor、Security 等虚拟化技术方面的 Workload offloading,消除了传统虚拟化技术对 CPU 资源的性能开销。同时还集成了多种功能,包括 Security Root 信任根、内存保护、安全监控等,以此来加强 Amazon EC2 实例的高性能和高安全性。安全性以及加密功能对于云计算中心的多租户网络安全至关重要。我们在之前的一期Kiwi Talks有讲述智能网卡与DPU在应用上的主要区别,亚马逊的前端网络案例可以让我们更清楚的了解两者在应用上的不同

用于AI网络Scale Out的智能网卡作为更轻量级的硬件多用于网络加速,与交换机等组件共同完成拥塞控制、自适应理由、选择性重传等系列AI网络传输问题。SmartNIC和DPU的技术路径存在显著不同。

在 2024 re:Invent 中,我们看到亚马逊云将 Nitro DPU 与 Graviton CPU 之间的 PCIe 链路都进行了加密,创建了一个相互锁定的信任网络,使 CPU 到 CPU、CPU 到 DPU 的所有连接都由硬件提供安全保护。

写在最后,全球主流超大规模云厂商已经成功搭建万卡集群并朝着十万卡集群目标迈进。但碍于生态壁垒,部分厂商还基于私有协议在构建自有网络体系。与此同时,国内的万卡集群在异构芯片调度、软硬件打通、超节点HBD域构建等方面仍然面临挑战,未来人工智能网络还有很长一段路要走,还有待行业积极拥抱开源开放的协议与物理接口,以实现更紧密的协同发展。

关于我们AI网络全栈式互联架构产品及解决方案提供商

奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale out网络的AI原生智能网卡、面向南向Scale up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。

奇异摩尔的核心团队汇聚了来自全球半导体行业巨头如NXPIntel、Broadcom等公司的精英,他们凭借丰富的AI互联产品研发和管理经验,致力于推动技术创新和业务发展。团队拥有超过50个高性能网络及Chiplet量产项目的经验,为公司的产品和服务提供了强有力的技术保障。我们的使命是支持一个更具创造力的芯世界,愿景是让计算变得简单。奇异摩尔以创新为驱动力,技术探索新场景,生态构建新的半导体格局,为高性能AI计算奠定稳固的基石。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5258

    浏览量

    136039
  • 服务器
    +关注

    关注

    14

    文章

    10343

    浏览量

    91737
  • AI
    AI
    +关注

    关注

    91

    文章

    40928

    浏览量

    302512
  • 亚马逊
    +关注

    关注

    8

    文章

    2735

    浏览量

    85880

原文标题:十万卡集群的必经之路:亚马逊云科技AI Networking片内/片间/网间互联解决方案回顾

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    易点天下选择亚马逊科技 以Agentic AI驱动营销智能化升级

    解决方案AI Drive 2.0提供技术底座,支持创新的AI营销业务探索。AI Drive 2.0通过打造创意生成、广告投放、数据归因及持续优化的营销场景闭环,可
    的头像 发表于 04-09 16:15 306次阅读

    中科创达携手亚马逊科技推出端一体化边缘AI解决方案

    作为全球领先的智能操作系统和端侧智能技术提供商,中科创达始终致力于通过技术创新赋能产业升级。2026年1月8日, 中科创达(ThunderSoft)在拉斯维加斯CES现场发表演讲,并携手亚马逊科技联合发布端一体化边缘
    的头像 发表于 01-14 10:00 2243次阅读

    Proteintech选择亚马逊科技为首选服务商,构建行业首个AI抗体助手加速科研创新

    北京 ——202 6 年 1 月 5 日 亚马逊科技在2025 re:Invent全球大会上宣布,全球知名的抗体与生命科学解决方案供应商Proteintech选择亚马逊
    的头像 发表于 01-05 11:14 563次阅读

    亚马逊科技推出全新的Amazon AI Factories 将客户现有基础设施转化为高性能AI环境

    亚马逊科技在2025 re:Invent全球大会上,宣布推出全新的Amazon AI Factories,助力企业将现有基础设施转化为高性能的AI环境。
    的头像 发表于 12-13 13:44 830次阅读

    奇异摩尔Networking for AI生态沙龙成功举办

    近日,中国信息通信研究院华东分院与行业领先的AI网络全栈式互联产品及解决方案提供商——奇异摩尔联合举办的“聚力向芯 算涌无界 Networking for AI”生态沙龙活动在上海浦东
    的头像 发表于 10-09 12:45 926次阅读

    亚马逊科技“AI在未来”夏日挑战营圆满落幕

    亚马逊科技"AI在未来"夏日挑战营暨2025年夏令营活动于8月17日至20日在宁夏银川市成功举办。
    的头像 发表于 08-26 17:32 857次阅读

    亚马逊科技现已上线OpenAI开放权重模型

    客户现可通过Amazon Bedrock和Amazon SageMaker AI使用OpenAI开放权重模型,实现将先进的开放权重模型与全球最广泛服务的深度集成。 亚马逊科技首次上
    的头像 发表于 08-06 19:29 939次阅读

    亚马逊科技AI联赛:在全新终极AI对决中学习、创新和竞争

    自2018年以来,AWS DeepRacer 已吸引全球超过56万名开发者参与,充分印证了开发者可以通过竞技实现能力成长的实践路径。如今,亚马逊科技将通过亚马逊科技
    的头像 发表于 08-05 18:03 854次阅读

    The Ocean Cleanup携手亚马逊科技 利用AI技术加速清除海洋塑料

    先进的AI检测系统与计算技术将为未来海洋塑料清理提供强大动力,守护海洋生态系统   北京 ——2025年 7 月 24 日  亚马逊科技宣布将与致力于清除全球海洋和河流塑料污染的非
    的头像 发表于 07-24 14:07 1153次阅读

    亚马逊科技在2025纽约峰会发布多项AI agent创新

    重磅发布Amazon Bedrock AgentCore,亚马逊科技Marketplace上新并追加1亿美金投资以加速agentic AI发展 Amazon Bedrock AgentCore通过
    的头像 发表于 07-17 16:06 950次阅读
    <b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技在2025纽约峰会发布多项<b class='flag-5'>AI</b> agent创新

    软通动力携手华为推出AI知识引擎与数据工程融合创新解决方案

    在华为开发者大会2025中,软通动力携手华为以华为昇腾AI、盘古大模型、ModelArts等为技术底座,全新升级数据治理基线解决方案,正式发布A
    的头像 发表于 06-28 17:07 1746次阅读

    Agentic AI再竖里程碑,这次引爆革命的还是亚马逊科技

    科技报到原创。 谁都知道AI发展的速度日新月异,但当里程碑即将出现时,所有人依然心潮澎湃。 在亚马逊科技中国峰会上,Agentic AI
    的头像 发表于 06-25 10:28 673次阅读
    Agentic <b class='flag-5'>AI</b>再竖里程碑,这次引爆革命的还是<b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技

    Dify携手亚马逊科技加速全球企业生成式AI应用规模化落地

    简单易用的AI应用开发平台Dify通过深度集成亚马逊科技的生成式AI技术与服务,在保障性能、合规与全球交付的基础上,显著降低企业在生成式
    的头像 发表于 06-07 16:00 995次阅读

    四维图新亮相2025亚马逊科技中国汽车行业峰会

    ,四维图新与亚马逊科技深化合作,打造汽车专属解决方案,助力汽车企业在软件定义汽车、车联网以及辅助驾驶系统等领域加速创新及产品落地。
    的头像 发表于 04-25 16:27 1078次阅读

    亚马逊科技发布“3+2”合作伙伴战略 与合作伙伴加速前行

    北京 ——2025 年 4 月 25 日 在亚马逊科技中国合作伙伴峰会上,亚马逊科技发布“3+2”合作伙伴战略,聚焦全行业转型、生成式AI
    发表于 04-25 14:43 1064次阅读
    <b class='flag-5'>亚马逊</b><b class='flag-5'>云</b>科技发布“3+2”合作伙伴战略 与合作伙伴加速前行