0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ETH-X超节点:开辟AI算力约束突破的新路径

SDNLAB 来源:SDNLAB 2024-11-09 10:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

面对人工智能大模型的迅速发展及其对算力资源的急剧增长需求,单芯片性能提升遭遇瓶颈,同时通过Scale Out策略扩展多机集群以增加算力也遇到了局限性。在此背景下,中国信通院与腾讯携手GPUCPU交换机芯片制造商、服务器供应商、网络设备厂商及互联网企业等多方力量,共同发起超大带宽ETH-X(以太网)超节点计划,旨在通过技术创新与行业合作,构建开放可扩展的HBD(高带宽域)超节点系统样机,探索AI算力提升新途径,为构建ETH-X超节点互联开放协作产业生态提供支撑。同时,将共同编制相关技术规范,为行业树立标准,引导超节点技术高质发展。

AI大模型发展与算力需求

AI大模型的发展依赖于持续提升算力。根据Scaling Law(规模定理),增大模型规模与增加训练数据量是直接提升AI大模型智能水平与性能的关键途径。但对集群算力需求的将呈指数级增长。

长序列是AI大模型发展的另一个重要方向。长序列提高AI大模型回答问题的质量、处理复杂任务的能力以及更强的记忆力和个性化能力的同时,也会加大对训练和推理算力资源的需求1,尤其是对显存资源的需求。因此满足AI大模型发展需求,算力能力的持续提升成为一个重要基础。

f5b523e4-903e-11ef-a511-92fbcf53809c.png

f5d925fa-903e-11ef-a511-92fbcf53809c.png

图1 长序列带来的准确率收益以及显存需求

单芯片算力提升遇阻、

scale out集群算力提升受限

当前,提升集群算力已面临一些明显的制约因素。首先,单芯片性能提升受到HBM容量带宽增长赶不上算力增长速度的限制,内存墙问题制约算法发挥。如在典型模型与并行方式下,Nvidia Hopper一代芯片的有效算力(HFU)明显低于Ampere一代芯片,如图2所示。另一种通过Scale out扩展集群规模提升整体算力的方式也受到GBS(Global Batch Size)不能无限增长的限制,导致在集群规模增大到一定程度后,HFU出现明显下降。最后,模型参数量增大需要更大的模型并行规模,模型并行中Tensor并行或MOE类型的Expert并行都会在GPU之间产生大量的通信,并且这部分通信很难与计算进行overlap。而当前典型一机八卡服务器限制了Tensor并行的规模或Expert并行通过机间网络,这都会导致HFU无法提高。

f60dbb1c-903e-11ef-a511-92fbcf53809c.png

图2 不同型号GPU以及不同规模集群对HFU的影响

通过scale up扩大HBD(超带宽域)的超节点成为突破方向

HBD(High Bandwidth Domain)是一组以超带宽(HB)互联GPU-GPU的系统2。HBD内GPU-GPU通信带宽是HBD之间GPU-GPU通信带宽的数倍。如Nvidia H100 提供900GBps HB带宽,HBD间GPU-GPU通信带宽只有100GBps。因此在模型并行中将数据量大、无法overlap的部分限制在一个HBD内完成。

当前,HBD限制在一台服务器内,典型1机8卡服务器是8张GPU卡之间通过某种HB连接技术实现互联,构成一个HBD=8的系统。然而更大的参数规模、更长的序列长度、更多的MOE专家数量、更大的集群规模,都造成了更多的通信数据量。HBD=8的情况下,大量的数据通信均需经过HBD间的scale out网络,因此通信占比提高、HFU下降的问题凸显。

通过构建更大的HBD系统,以scale up方式提升系统算力是解决上述问题的有效途径之一。如MIT与Meta的研究论文中,通过建模分析3,论证了扩大HBD对训练性能的提升效果。另外,Nvidia也实现了不同规模HBD系统并进行了部署与验证4。

f633b646-903e-11ef-a511-92fbcf53809c.png

f65e4974-903e-11ef-a511-92fbcf53809c.png

图3 HBD超节点典型代表与业务收益举例

Nvidia将HB互联不仅用于GPU-GPU之间,而是将其应用到GPU-CPU/Memory的超大带宽互联,例如GH200、GB200产品。通过此方式为GPU提供一个超带宽访问CPU/Memory的能力。

Nvidia产品具备支持GPU-CPU/Memory的统一内存编制以及GPU通过内存语义接口read/write直接访问CPU/Memory的能力,具有更高效、更直接的特点。但其同步操作的方式会对时延进行限制,制约可访问CPU/Memory的距离与容量。另外,目前的软件生态中,未有支持直接通过内存语义访问CPU/Memory的系统。

相反若使用异步的memory offload方式将降低对时延的约束,并发利用多节点CPU/Memory,发挥HB互联的带宽优势。另外,当前memory offload已具备一定软件生态上的基础,例如Zero offload5。

综上所述,超节点是一个以超大带宽(HB)互联16卡以上GPU-GPU以及GPU-CPU/Memory的scale up系统,以HBD超节点为单位,通过传统scale out扩展方式可形成更大规模、更高效的算力集群。超节点Scale Up的核心需求是超大带宽(HB),但规模不需要很大。Scale Out的核心需求是超大规模。因此Scale Up网络与Scale Out网络更适合是相互独立共存的两张网络。

f6866990-903e-11ef-a511-92fbcf53809c.png

图4 Scale Up超大带宽与Scale Out超大规模共同构建高算力AI集群

ODCC ETH-X计划构建开放超节点产业生态

超节点的核心是HB互联技术,当前工业界已实现的超节点系统均是采用私有技术与协议实现HB互联,例如Nvidia的NVLINK。但此类私有技术与协议由单一企业进行维护,无法保证技术长期、高效的发展。另外,从HBD超节点产品完善角度也无法保证系统的开放,导致无法形成良性、开放的产业生态。

以太网技术凭借开放的生态、多样的产业链环境,为技术的长期演进发展提供支撑。当前以太网技术上从端口带宽及交换容量方面已具有较强的竞争基础。如以太网单端口800G MAC标准已成熟并产业化,以太网单芯片51.2T交换容量 ETH-switch也已在2023年产品化商用。

目前,以太网HB接口GPU产品的日益丰富,HBD超节点系统正逐步依托于以太网互联技术,实现向更为模块化、多元化的结构转型,有效促进了多方厂商的积极参与,各厂商专精于系统内的不同组件或子系统开发,显著提升了HBD超节点产品化的多样性和方案的丰富度,为HBD超节点技术长期演进奠定稳固基石,确保其在应对未来挑战时能够持续进化,保持领先的技术竞争力与生态活力。

f6c070b8-903e-11ef-a511-92fbcf53809c.png

f6f73b34-903e-11ef-a511-92fbcf53809c.png

图5 ETH-X超节点参考架构与预期收益评估

f721f7d4-903e-11ef-a511-92fbcf53809c.png

图6 ETH-X技术规范构成与项目计划

为推动算力产业的发展,ODCC网络组启动了ETH-X超节点系列项目。该项目由中国信通院、腾讯联合快手科技、燧原科技、壁仞科技、华勤技术、锐捷网络、新华三、云豹智能、云合智网、盛科通信、立讯精密、光迅科技等合作伙伴共同推动,以产品化样机以及相关技术规范为目标,打造大型多GPU互联算力集群系统。该项目计划在2025年秋季前完成ETH-X超节点样机软硬件研发与相关业务系统验证测试,同时发布ETH-X超节点技术规范1.0。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38271

    浏览量

    297326
  • 人工智能
    +关注

    关注

    1813

    文章

    49783

    浏览量

    261880
  • 算力
    +关注

    关注

    2

    文章

    1399

    浏览量

    16580

原文标题:ETH-X超节点:探索突破AI算力约束的新途径

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    640卡节点问世:国产实现关键一跃

    单机柜级640卡节点ScaleX640,为如火如荼的竞争注入了新的变量。   这款被命名为ScaleX640的
    的头像 发表于 11-11 09:26 1981次阅读

    硅芯科技:AI突破,新型堆叠EDA工具持续进化

    电子发烧友网报道(文/黄晶晶)先进封装是突破危机的核心路径。2.5D/3D Chiplet异构集成可破解内存墙、功耗墙与面积墙,但面临多物理场分析、测试容错等EDA设计挑战。现有E
    的头像 发表于 10-31 09:16 1.2w次阅读
    硅芯科技:<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>突破</b>,新型堆叠EDA工具持续进化

    华为发布全球最强节点和集群

    在华为全联接大会2025(HUAWEI CONNECT 2025)上,华为发布最强节点和集群,并表示将发展生态作为公司核心战略,提升到前所未有的战略高度。在计算领域,鲲鹏昇腾坚持
    的头像 发表于 10-10 17:29 1915次阅读

    节点+集群”:华为撞出来的之路

    节点+集群”,成为彻底解决AI困局的契机
    的头像 发表于 09-24 10:55 869次阅读
    “<b class='flag-5'>超</b><b class='flag-5'>节点</b>+集群”:华为撞出来的<b class='flag-5'>算</b><b class='flag-5'>力</b>之路

    华为节点互联技术引领AI基础设施新范式

    今日,华为全联接大会2025在上海启幕,华为副董事长、轮值董事长徐直军发表题为“以开创的节点互联技术,引领AI基础设施新范式”的主题演讲,正式发布全球最强
    的头像 发表于 09-20 16:15 1802次阅读

    中兴通讯荣获2025中国大会年度重大突破成果奖

    近日,在2025中国大会上,中兴通讯凭借“基于GPU卡间高速互联开放架构和自研‘凌云’AI交换芯片的智
    的头像 发表于 08-28 14:40 5364次阅读

    突破传统桎梏,PPEC Workbench 开启电源智能化设计新路径

    匹配。 PPEC Workbench 电力电子智能化设计平台凭借图形化算法编程、智能化设计、高效协同等核心理念,突破了传统电源设计的限制,为行业开辟了智能化、高效化的全新设计路径。它不仅为电力电子行业的发展注入了新动力,更让我们
    发表于 08-26 11:40

    多达 48 个计算节点!Firefly 推出 CSC2-N48 AI 服务器

    Firefly最新推出CSC2-N48服务器,内置48个分布式计算节点,单节点可提供6TOPS-157TOPS
    的头像 发表于 08-20 16:37 1312次阅读
    多达 48 个计算<b class='flag-5'>节点</b>!Firefly 推出 CSC2-N48 <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b>服务器

    中国首条&quot;光轨&quot;通车!国内首个分布式光互连光交换节点发布

    电子发烧友网报道(文 / 吴子鹏)节点技术(SuperPod)是一种通过高带宽、低时延互连技术,将大量 GPU芯片整合为统一超级计算单元的技术架构。它突破了传统单服务器架构限制,将
    发表于 08-01 08:59 6144次阅读
    中国首条&quot;<b class='flag-5'>算</b><b class='flag-5'>力</b>光轨&quot;通车!国内首个分布式光互连光交换<b class='flag-5'>超</b><b class='flag-5'>节点</b>发布

    立讯技术解读ETH-X节点高速互连技术的现状与未来

    当前,人工智能技术驱动全球数据中心向智中心加速演进,传统架构在承载AI大模型训练时暴露出显著瓶颈--资源调度碎片化、异构协同低效、能源利用率不足等问题。在此背景下,行业亟需通过技
    的头像 发表于 07-03 09:44 2058次阅读
    立讯技术解读<b class='flag-5'>ETH-X</b><b class='flag-5'>超</b><b class='flag-5'>节点</b>高速互连技术的现状与未来

    奇异摩尔邀您相约2025中国AI大会

    在2025中国AI大会上,奇异摩尔首席网络架构专家叶栋将带来“AI原生时代 —共筑节点的网
    的头像 发表于 06-17 17:49 1335次阅读

    华为云黄瑾:昇腾云CloudMatrix 384节点六大科技创新,定义下一代AI基础设施

    难以支撑 AI 技术的代际跃迁,节点架构的诞生不仅是技术的突破,更是以工程化创新开辟 AI
    的头像 发表于 05-17 10:31 3664次阅读

    华为云节点创新基础设施,推动千行万业AI应用开发落地

    近日,“逐光向新·智领未来”华为云 AI 峰会于北京成功举办。大会期间,华为云面向客户伙伴详细介绍了 CloudMartix 384 节点的创新技术优势,并与在场嘉宾共同探讨如何加速 AI
    的头像 发表于 05-17 10:30 3001次阅读

    DeepSeek推动AI需求:800G光模块的关键作用

    集群的部署过程中,带宽瓶颈成为制约发挥的关键因素,而光模块的速率跃升成为突破这一瓶颈的核心驱动力。 光模块速率跃升 随着
    发表于 03-25 12:00