0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

光通信+分布式架构,突破传统网络架构瓶颈

Hobby观察 来源:电子发烧友 作者:综合报道 2025-06-20 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网综合报道,随着大语言模型(LLM)参数规模突破万亿级,传统数据中心网络架构(如NVL、TPUv4、SiP-Ring)逐渐暴露出瓶颈。

传统方案依赖昂贵的交换机(如NVIDIA的NVLink Switch)或光学电路(如TPUv4的OCS),其成本随集群规模呈指数级增长。例如,NVLink Switch单台成本高达数万美元,且仅支持单节点级扩展(如DGX H100集群最多8-GPU互联)。TPUv4虽采用光学环形网络,但其OCS交换机需定制化光纤布线,限制了跨Pod级扩展能力。

由于拓扑限制,单个GPU故障可能引发级联失效。以SiP-Ring为例,其静态环形拓扑要求所有节点严格同步,若某一节点故障,整个TP组需重新初始化,导致GPU浪费率高达37%(TP-64场景)。NVL架构中,单节点故障甚至会中断全局通信,迫使作业暂停重试。

跨ToR(Top of Rack)通信也成为网络架构的性能瓶颈。研究显示,GPT-3训练任务中35%的通信流量为跨机架传输,导致网络拥塞,带宽利用率不足40%。传统Fat-Tree拓扑虽支持高带宽,但其树状结构易在核心层形成热点,限制了大规模并行效率。

为了解决这些问题,最近,曦智科技联合北京大学、阶跃星辰的研究团队提出了一种以光交换(OCS)模组为中心的高带宽域架构InfiniteHBD。InfinitePOD通过无交换机架构设计 、动态拓扑编排算法和光通信技术优化 ,系统性解决了现有的问题。

InfinitePOD采用分布式节点直连网络,每个GPU节点配备QSFP-DD OCSTrx光模块(51.2Tbps带宽),通过预定义光纤链路实现跨ToR的3跳内直连。可以省去专用交换机,仅使用标准化光模块,单节点互连成本下降60%。

同时物理层支持任意规模集群互联,实验验证可扩展至65536 GPU,远超NVL(16384 GPU)和TPUv4(单Pod级)。在拓扑灵活性上,通过软件动态配置通信组,支持K-Hop Ring(环形)和K-Hop Line(线性)等拓扑,适配TP、DP、PP等不同并行策略。

InfinitePOD采用了两阶段部署机制,首先是物理层预定义,在部署阶段规划节点间3跳光纤连接,形成Rail-Optimized拓扑,减少跨机架流量;在运行时动态编排,基于图切割算法(Graph Partitioning)和贪心策略,实时调整通信组拓扑。

容错机制上,当GPU故障时,编排算法自动重构通信路径,仅隔离故障节点而不影响全局。实验表明,在TP-64场景下,GPU浪费率从NVL的24%降至11%,作业中断概率降低72%。

在光通信技术上,InfinitePOD采用QSFP-DD OCSTrx光模块,光模块基于曦智科技硅光子技术的分布式光交换dOCS,将基于马赫曾德(MZI,Mach-Zehnder Interferometer)交换矩阵的光交换芯片集成到商用QSFP-DD 800Gbps光电转换模组中,大幅简化了器件结构的同时,有效提升了器件集成度,从而降低了成本和功耗,显著提升了InfiniteHBD的性价比和系统可扩展性。

同时采用Rail-Optimized拓扑,针对机架间通信优化,通过3跳内光纤直连实现流量局部化 ,AllReduce带宽利用率提升至77.26%,接近理论极限。

InfinitePOD的核心价值在于将光通信技术与分布式架构深度融合 ,通过“硬件简化+软件智能”的设计理念,重新定义了高带宽数据中心网络。尽管当前方案仍需解决长距离光信号衰减和模块功耗问题,但其开创性的设计已为下一代数据中心网络指明方向——去中心化、软硬协同、极致扩展 。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 光通信
    +关注

    关注

    20

    文章

    1030

    浏览量

    35449
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无线激光通信终端/空间光通信FSO/抗电磁干扰/安全保密

    光通信
    有光通信
    发布于 :2026年04月20日 13:17:40

    微电网主从控制架构:集中式调度与分布式执行的协同机制

    微电网主从控制架构作为一种兼顾“全局优化”与“本地响应”的经典控制模式,核心逻辑是构建“主控制器统筹调度、从控制器分布式执行”的协同体系,打破传统集中式控制响应滞后、分布式控制无序运行
    的头像 发表于 04-11 09:55 1328次阅读
    微电网主从控制<b class='flag-5'>架构</b>:集中式调度与<b class='flag-5'>分布式</b>执行的协同机制

    微电网集中式架构vs分布式架构:设计差异与选型依据

    微电网作为整合“源、储、荷、网”的新型能源系统,其架构设计直接决定系统的运行效率、可靠性、扩展性与经济性,是微电网规划建设的核心环节。在微电网主流架构中,集中式架构分布式
    的头像 发表于 04-02 11:40 398次阅读
    微电网集中式<b class='flag-5'>架构</b>vs<b class='flag-5'>分布式</b><b class='flag-5'>架构</b>:设计差异与选型依据

    西格电力微电网总体架构设计:分层分布式控制体系构建

    总体架构设计:分层分布式控制体系构建》核心聚焦“总体架构规划”与“分层分布式控制落地”两大核心,破解传统集中式控制响应滞后、可靠性不足、扩展
    的头像 发表于 03-31 11:44 445次阅读
    西格电力微电网总体<b class='flag-5'>架构</b>设计:分层<b class='flag-5'>分布式</b>控制体系构建

    2022全新版!Java分布式架构设计与开发实战(完结)

    2022全新版!Java分布式架构设计与开发实战(完结) 分库分表实战:Java海量数据存储架构设计 在现代互联网应用中,随着业务规模的指数级增长,数据库性能瓶颈已成为制约系统发展的
    发表于 03-30 15:20

    机载系统智能化的基石:分布式网络控制系统与容器虚拟化技术的深度融合实践

    创新的“云-边-端”分布式智能架构,该架构深度融合了分布式综合模块化航电系统、边缘计算、容器化软件及确定性网络等前沿技术。
    的头像 发表于 01-27 09:13 754次阅读
    机载系统智能化的基石:<b class='flag-5'>分布式</b><b class='flag-5'>网络</b>控制系统与容器虚拟化技术的深度融合实践

    德州仪器(TI)解读汽车区域架构中的 TSN:启用以太网环形架构和 AVB 分布式音频

    德州仪器(TI)解读汽车区域架构中的 TSN:启用以太网环形架构和 AVB 分布式音频
    的头像 发表于 12-24 18:10 1.3w次阅读
    德州仪器(TI)解读汽车区域<b class='flag-5'>架构</b>中的 TSN:启用以太网环形<b class='flag-5'>架构</b>和 AVB <b class='flag-5'>分布式</b>音频

    从 “单一控制” 到 “智能可视”:分布式系统与传统音视频控制系统的关键区别

    分布式可视化控制系统与传统的音视频控制系统的区别主要体现在以下几个方面: 1.系统架构分布式可视化控制系统采用分布式
    的头像 发表于 10-21 10:52 522次阅读

    分布式光伏环境监测站的技术架构与应用实践

    分布式光伏环境监测站的技术架构与应用实践 柏峰【BF-GFQX】一、系统技术架构解析 分布式光伏环境监测站采用“感知层-传输层-应用层”三层架构
    的头像 发表于 10-13 10:05 728次阅读
    <b class='flag-5'>分布式</b>光伏环境监测站的技术<b class='flag-5'>架构</b>与应用实践

    关于AI 数据中心时代的光通信的精选问答

    模块技术的融合与演进。AI 数据中心的持续扩张正以前所未有的速度推动光通信升级。随着算力需求每年以十倍速增长,仅靠芯片提升已难以为继,网络架构的革新变得尤为关键。Scale-up 与 Scale-out 的多样化
    的头像 发表于 09-12 10:42 869次阅读

    大规模部署(如分布式光伏集群)时,装置的通信网络易出现哪些瓶颈(如拥堵、延迟

    LZ-DZ200A侧面 在大规模分布式光伏集群等场景中,装置通信网络瓶颈主要源于节点规模激增、数据量暴增、环境复杂等特点,具体可从以下维度分析: 一、节点规模与接入层拥堵 分布式光伏
    的头像 发表于 08-22 09:50 1043次阅读
    大规模部署(如<b class='flag-5'>分布式</b>光伏集群)时,装置的<b class='flag-5'>通信网络</b>易出现哪些<b class='flag-5'>瓶颈</b>(如拥堵、延迟

    宏集分享 | 集中式架构还是分布式架构?SCADA架构选型的新趋势

    HongraxIIoT在工业数字化不断推进的今天,SCADA系统早已不仅是简单的数据监控工具,它正在成为保障企业运行效率、安全性和业务连续性的战略核心。而“选择集中式、分布式还是混合式架构?”也正
    的头像 发表于 08-08 18:15 845次阅读
    宏集分享 | 集中式<b class='flag-5'>架构</b>还是<b class='flag-5'>分布式</b><b class='flag-5'>架构</b>?SCADA<b class='flag-5'>架构</b>选型的新趋势

    携手共探无线光通信新未来!六博光电邀您相聚第六届无线光通信理论与组网技术论坛

    通信技术飞速发展的今天,无线光通信凭借高速、大容量、低延迟和高安全性等显著优势,成为突破当前通信网络瓶颈、推动
    的头像 发表于 07-10 17:17 930次阅读
    携手共探无线<b class='flag-5'>光通信</b>新未来!六博光电邀您相聚第六届无线<b class='flag-5'>光通信</b>理论与组网技术论坛

    突破精度极限,赋能光通信未来——武汉昊衡科技OLI光纤微裂纹检测仪引领行业革新

    光通信网络高速发展的今天,光纤及光器件的质量直接决定了通信系统的稳定性和传输效率。然而,传统检测技术受限于精度不足、效率低下等问题,难以满足日益严苛的行业需求。武汉昊衡科技有限公司凭借深厚的技术积累
    的头像 发表于 06-05 17:31 2708次阅读
    <b class='flag-5'>突破</b>精度极限,赋能<b class='flag-5'>光通信</b>未来——武汉昊衡科技OLI光纤微裂纹检测仪引领行业革新

    见合八方邀您相约2025国际光通信网络会议

    第二十三届IEEE国际光通信网络会议(ICOCN 2025) 将于7月份在中国张家界启幕!天津见合八方与ICOCN 2025联手深度合作,共同打造一场 “产学研用”全链贯通的全球光通信盛宴。
    的头像 发表于 05-26 15:04 1745次阅读