0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于分布式光交换的高带宽域架构InfiniteHBD

曦智科技 来源:曦智科技 2025-06-09 10:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

曦智科技联合北京大学、阶跃星辰为下一代万亿参数大模型训练的基础设施建设提出全新解决方案。

随着大模型参数规模的扩大,分布式训练成为人工智能发展的核心途径。分布式训练可以将模型数据分配给多个计算节点,进行并行计算和数据管理,从而显著加速模型训练的过程,而高带宽域(High Bandwidht Domain, HBD)的设计对提升模型算力利用率至关重要。

然而,现有的HBD架构在可扩展性、成本和容错能力等方面存在根本性限制:

交换机中心的HBD(如NVIDIA NVL72)成本高昂、不易扩展规模。

以以AI 加速器(包括GPU 与专用ASIC)为中心的HBD(如Google TPUv3和Tesla Dojo)存在严重的故障传播问题。

2022 年Google发布TPU v4 集群,首次采用光交换方案(Optical Circuit Switch,以下简称“OCS”),这种交换机-GPU混合的HBD在互连成本与系统扩展性之间采取了折中方案,但仍存在故障爆炸半径问题,其成本和容错能力仍不甚理想。

70f2da02-41b9-11f0-b715-92fbcf53809c.jpg

在此背景下,曦智科技联手北京大学、阶跃星辰的研究团队提出了一种以光交换(OCS)模组为中心的高带宽域架构InfiniteHBD,通过在光电转换模组中集成OCS能力,InfiniteHBD实现了动态可重构的单点对多点连接,具备节点级故障隔离和低资源碎片化的能力。

InfiniteHBD在可扩展性和成本上全面优于现有方案:InfiniteHBD的单位成本仅为NVL72的31%,GPU冗余率比NVL72和TPUv4低一个数量级,且与NVIDIA DGX(单机8卡)相比,模型算力利用率最高提升3.37 倍。

该方案以论文形式被国际通信网络领域顶级会议SIGCOMM 2025[1]接收。

曦智科技在集成硅光领域拥有十余年的产业经验,在InfiniteHBD 方案中,创新性的开发了基于硅光子技术的分布式光交换dOCS(distributed Optical Circuit Switch),将基于马赫曾德(MZI,Mach-Zehnder Interferometer)交换矩阵的光交换芯片集成到商用QSFP-DD 800Gbps光电转换模组中,大幅简化了器件结构的同时,有效提升了器件集成度,从而降低了成本和功耗,显著提升了InfiniteHBD 的性价比和系统可扩展性。

715fa696-41b9-11f0-b715-92fbcf53809c.png

分布式光交换方案对于建设超大规模训练集群具有以下收益:

dOCS自带光电转换,提供交换能力的同时可形成跨机超节点;

光交换芯片采用成熟制程,降低了对于先进制程电交换芯片的依赖;

光交换芯片对协议不敏感,适用于当前GPU连接协议碎片化的现状

InfiniteHBD为高带宽域架构的高效扩展提供了新的解决方案,为下一代万亿参数大模型训练的基础设施建设带来了重要启示。 注释: [1]SIGCOMM,Special Interest Group on Data Communication,即数据通信专业组,是ACM(美国计算机协会)组织在通信网络领域的旗舰会议。今年的SIGCOMM 将于9 月8日-11日在葡萄牙科英布拉举行。

关于曦智科技

曦智科技是全球领先的光电混合算力提供商。公司凭借在集成光子领域的开创性技术和全球顶尖的集成电路技术研发团队,致力于在计算需求爆发的时代,为客户提供一系列算力跃迁解决方案,与客户共建更智能、更可持续的世界。曦智科技从光子矩阵计算(oMAC)、片上光网络(oNOC)和片间光网络(oNET)三大核心技术出发,打造光子计算和光子网络两大产品线,与大数据、云计算、金融、自动驾驶、生物医药、材料研究等领域客户开展紧密合作,持续为客户提供更具创造性的高效算力支撑。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    841

    浏览量

    40232
  • 算力
    +关注

    关注

    2

    文章

    1658

    浏览量

    16832
  • 大模型
    +关注

    关注

    2

    文章

    3747

    浏览量

    5268

原文标题:曦科技|基于分布式光交换高带宽域InfiniteHBD:破局超节点扩展瓶颈

文章出处:【微信号:曦智科技,微信公众号:曦智科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    分布式伏发电优点、实现路径以及趋势

    分布式伏发电是指利用太阳能伏板,将太阳光直接转换成电能的一种方式,其特点是发电单元规模较小,且直接部署在电力需求侧附近,如住宅屋顶、商业楼宇、工业厂房等。与传统的集中式大型
    的头像 发表于 04-08 09:18 376次阅读

    伏规约转换器分布式伏调控“四可”并网实施案例

    1.背景近年来,随着国家分布式伏的利好政策,各地分布式伏装机规模增加迅猛。分布式伏具有间歇
    的头像 发表于 12-19 10:13 4300次阅读
    <b class='flag-5'>光</b>伏规约转换器<b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏调控“四可”并网实施案例

    福禄克产品在分布式屋顶伏系统运维中的应用案例

    分布式伏通常指在用户场地附近建设,容量相对较小的伏发电设施。屋顶伏作为分布式伏的
    的头像 发表于 11-21 17:13 1734次阅读

    Acrel-1000DP分布式伏监控系统成功落地奉贤平食品 4.4MW 分布式伏项目

    、概述 上海华电奉贤平食品 4408.085kwp 分布式伏发电项目(以下简称“本项目”)是响应国家“优化能源结构,提供更加清洁、可靠的能源”的号召,投资建设的
    的头像 发表于 11-12 10:17 546次阅读

    如何解决分布式伏计量难题?

    分布式伏成增长主力 据《2025-2030年中国分布式伏行业市场前景预测及未来发展趋势研究报告》显示,2024年中国分布式
    的头像 发表于 11-07 14:55 400次阅读
    如何解决<b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏计量难题?

    分布式伏环境监测站的技术架构与应用实践

    分布式伏环境监测站的技术架构与应用实践 柏峰【BF-GFQX】、系统技术架构解析 分布式
    的头像 发表于 10-13 10:05 727次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏环境监测站的技术<b class='flag-5'>架构</b>与应用实践

    伏监控案例分享!奉贤平食品4.4MW分布式伏电站:实时监控+智能运维

    摘 要:在“双碳”和新型电力系统建设背景下,分布式伏接入比例不断提高,对配电网电压、调度运行及调峰等环节造成强烈冲击。本文设计包含平台层、设备层二层架构体系的分布式
    的头像 发表于 09-01 17:49 1600次阅读
    <b class='flag-5'>光</b>伏监控案例分享!奉贤平<b class='flag-5'>高</b>食品4.4MW<b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏电站:实时监控+智能运维

    【节能学院】Acrel-1000DP分布式伏监控系统在奉贤平食品 4.4MW 分布式伏中应用

    摘要:在“双碳”和新型电力系统建设背景下,分布式伏接入比例不断提高,对配电网电压、调度运行及调峰等环节造成强烈冲击。本文设计包含平台层、设备层二层架构体系的分布式
    的头像 发表于 08-23 08:04 3638次阅读
    【节能学院】Acrel-1000DP<b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏监控系统在奉贤平<b class='flag-5'>高</b>食品 4.4MW <b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏中应用

    分布式伏发电监测系统技术方案

    分布式伏发电监测系统技术方案 柏峰【BF-GFQX】、系统目标 :分布式伏发电监测系统旨在通过智能化的监测手段,实现对
    的头像 发表于 08-22 10:51 3438次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏发电监测系统技术方案

    中国首条&quot;算力轨&quot;通车!国内首个分布式互连交换超节点发布

    电子发烧友网报道(文 / 吴子鹏)超节点技术(SuperPod)是一种通过高带宽、低时延互连技术,将大量 GPU芯片整合为统超级计算单元的技术架构。它突破了传统单服务器
    发表于 08-01 08:59 6603次阅读
    中国首条&quot;算力<b class='flag-5'>光</b>轨&quot;通车!国内首个<b class='flag-5'>分布式</b><b class='flag-5'>光</b>互连<b class='flag-5'>光</b><b class='flag-5'>交换</b>超节点发布

    安科瑞分布式伏监控系统:赋能园区企业伏用电智能化管理

    维成本,成为了园区企业面临的重要挑战。安科瑞分布式伏监控系统应运而生,为园区企业提供了套全面、智能的伏用电管理解决方案。(18721098782----安科瑞) 系统
    的头像 发表于 07-30 15:57 920次阅读
    安科瑞<b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏监控系统:赋能园区企业<b class='flag-5'>光</b>伏用电智能化管理

    分布式伏总出问题?安科瑞分布式伏监控系统来“救场”

    分布式伏的痛点大揭秘 在 “双碳” 目标的大力推动下,分布式伏作为绿色能源领域的重要力量,正以前所未有的速度蓬勃发展,越来越多的企业
    的头像 发表于 07-16 16:50 937次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏总出问题?安科瑞<b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏监控系统来“救场”

    分布式伏发电监控系统

    、低压并网分布式伏电站的升压系统、伏逆变器等设备进行全面监控,采集微机保护装置、自动控制设备、电能质量监测装置、伏逆变器、
    的头像 发表于 06-25 13:41 1122次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏发电监控系统

    分布式伏监测难?并网型分布式伏系统伏功率预测方案

    分布式伏发电系统   安科瑞 邹玉丽   分布式伏发电系统的基本设备包括伏电池组件、
    的头像 发表于 05-20 10:17 1410次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏监测难?并网型<b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏系统<b class='flag-5'>光</b>伏功率预测方案

    分布式伏电力问题层出不穷?安科瑞分布式伏运维系统来“救场”

    分布式伏电力运维,痛点大揭秘​ ​ 分布式伏作为实现绿色能源转型的关键环,近年来在我国
    的头像 发表于 05-07 17:14 1079次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏电力问题层出不穷?安科瑞<b class='flag-5'>分布式</b><b class='flag-5'>光</b>伏运维系统来“救场”