0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

光通信+分布式架构,突破传统网络架构瓶颈

Hobby观察 来源:电子发烧友 作者:综合报道 2025-06-20 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网综合报道,随着大语言模型(LLM)参数规模突破万亿级,传统数据中心网络架构(如NVL、TPUv4、SiP-Ring)逐渐暴露出瓶颈。

传统方案依赖昂贵的交换机(如NVIDIA的NVLink Switch)或光学电路(如TPUv4的OCS),其成本随集群规模呈指数级增长。例如,NVLink Switch单台成本高达数万美元,且仅支持单节点级扩展(如DGX H100集群最多8-GPU互联)。TPUv4虽采用光学环形网络,但其OCS交换机需定制化光纤布线,限制了跨Pod级扩展能力。

由于拓扑限制,单个GPU故障可能引发级联失效。以SiP-Ring为例,其静态环形拓扑要求所有节点严格同步,若某一节点故障,整个TP组需重新初始化,导致GPU浪费率高达37%(TP-64场景)。NVL架构中,单节点故障甚至会中断全局通信,迫使作业暂停重试。

跨ToR(Top of Rack)通信也成为网络架构的性能瓶颈。研究显示,GPT-3训练任务中35%的通信流量为跨机架传输,导致网络拥塞,带宽利用率不足40%。传统Fat-Tree拓扑虽支持高带宽,但其树状结构易在核心层形成热点,限制了大规模并行效率。

为了解决这些问题,最近,曦智科技联合北京大学、阶跃星辰的研究团队提出了一种以光交换(OCS)模组为中心的高带宽域架构InfiniteHBD。InfinitePOD通过无交换机架构设计 、动态拓扑编排算法和光通信技术优化 ,系统性解决了现有的问题。

InfinitePOD采用分布式节点直连网络,每个GPU节点配备QSFP-DD OCSTrx光模块(51.2Tbps带宽),通过预定义光纤链路实现跨ToR的3跳内直连。可以省去专用交换机,仅使用标准化光模块,单节点互连成本下降60%。

同时物理层支持任意规模集群互联,实验验证可扩展至65536 GPU,远超NVL(16384 GPU)和TPUv4(单Pod级)。在拓扑灵活性上,通过软件动态配置通信组,支持K-Hop Ring(环形)和K-Hop Line(线性)等拓扑,适配TP、DP、PP等不同并行策略。

InfinitePOD采用了两阶段部署机制,首先是物理层预定义,在部署阶段规划节点间3跳光纤连接,形成Rail-Optimized拓扑,减少跨机架流量;在运行时动态编排,基于图切割算法(Graph Partitioning)和贪心策略,实时调整通信组拓扑。

容错机制上,当GPU故障时,编排算法自动重构通信路径,仅隔离故障节点而不影响全局。实验表明,在TP-64场景下,GPU浪费率从NVL的24%降至11%,作业中断概率降低72%。

在光通信技术上,InfinitePOD采用QSFP-DD OCSTrx光模块,光模块基于曦智科技硅光子技术的分布式光交换dOCS,将基于马赫曾德(MZI,Mach-Zehnder Interferometer)交换矩阵的光交换芯片集成到商用QSFP-DD 800Gbps光电转换模组中,大幅简化了器件结构的同时,有效提升了器件集成度,从而降低了成本和功耗,显著提升了InfiniteHBD的性价比和系统可扩展性。

同时采用Rail-Optimized拓扑,针对机架间通信优化,通过3跳内光纤直连实现流量局部化 ,AllReduce带宽利用率提升至77.26%,接近理论极限。

InfinitePOD的核心价值在于将光通信技术与分布式架构深度融合 ,通过“硬件简化+软件智能”的设计理念,重新定义了高带宽数据中心网络。尽管当前方案仍需解决长距离光信号衰减和模块功耗问题,但其开创性的设计已为下一代数据中心网络指明方向——去中心化、软硬协同、极致扩展 。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 光通信
    +关注

    关注

    20

    文章

    981

    浏览量

    35221
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从 “单一控制” 到 “智能可视”:分布式系统与传统音视频控制系统的关键区别

    分布式可视化控制系统与传统的音视频控制系统的区别主要体现在以下几个方面: 1.系统架构分布式可视化控制系统采用分布式
    的头像 发表于 10-21 10:52 235次阅读

    分布式光伏环境监测站的技术架构与应用实践

    分布式光伏环境监测站的技术架构与应用实践 柏峰【BF-GFQX】一、系统技术架构解析 分布式光伏环境监测站采用“感知层-传输层-应用层”三层架构
    的头像 发表于 10-13 10:05 254次阅读
    <b class='flag-5'>分布式</b>光伏环境监测站的技术<b class='flag-5'>架构</b>与应用实践

    关于AI 数据中心时代的光通信的精选问答

    模块技术的融合与演进。AI 数据中心的持续扩张正以前所未有的速度推动光通信升级。随着算力需求每年以十倍速增长,仅靠芯片提升已难以为继,网络架构的革新变得尤为关键。Scale-up 与 Scale-out 的多样化
    的头像 发表于 09-12 10:42 497次阅读

    大规模部署(如分布式光伏集群)时,装置的通信网络易出现哪些瓶颈(如拥堵、延迟

    LZ-DZ200A侧面 在大规模分布式光伏集群等场景中,装置通信网络瓶颈主要源于节点规模激增、数据量暴增、环境复杂等特点,具体可从以下维度分析: 一、节点规模与接入层拥堵 分布式光伏
    的头像 发表于 08-22 09:50 568次阅读
    大规模部署(如<b class='flag-5'>分布式</b>光伏集群)时,装置的<b class='flag-5'>通信网络</b>易出现哪些<b class='flag-5'>瓶颈</b>(如拥堵、延迟

    宏集分享 | 集中式架构还是分布式架构?SCADA架构选型的新趋势

    HongraxIIoT在工业数字化不断推进的今天,SCADA系统早已不仅是简单的数据监控工具,它正在成为保障企业运行效率、安全性和业务连续性的战略核心。而“选择集中式、分布式还是混合式架构?”也正
    的头像 发表于 08-08 18:15 471次阅读
    宏集分享 | 集中式<b class='flag-5'>架构</b>还是<b class='flag-5'>分布式</b><b class='flag-5'>架构</b>?SCADA<b class='flag-5'>架构</b>选型的新趋势

    携手共探无线光通信新未来!六博光电邀您相聚第六届无线光通信理论与组网技术论坛

    通信技术飞速发展的今天,无线光通信凭借高速、大容量、低延迟和高安全性等显著优势,成为突破当前通信网络瓶颈、推动
    的头像 发表于 07-10 17:17 659次阅读
    携手共探无线<b class='flag-5'>光通信</b>新未来!六博光电邀您相聚第六届无线<b class='flag-5'>光通信</b>理论与组网技术论坛

    突破精度极限,赋能光通信未来——武汉昊衡科技OLI光纤微裂纹检测仪引领行业革新

    光通信网络高速发展的今天,光纤及光器件的质量直接决定了通信系统的稳定性和传输效率。然而,传统检测技术受限于精度不足、效率低下等问题,难以满足日益严苛的行业需求。武汉昊衡科技有限公司凭借深厚的技术积累
    的头像 发表于 06-05 17:31 2430次阅读
    <b class='flag-5'>突破</b>精度极限,赋能<b class='flag-5'>光通信</b>未来——武汉昊衡科技OLI光纤微裂纹检测仪引领行业革新

    六博光电船载激光通信系统:开启水上高速通信新纪元

    在浩瀚水域中实现稳定、高速的无线通信,一直是海洋监测、应急救援及水上作业领域的技术难点。传统射频通信易受干扰、带宽有限,而卫星通信则面临高延迟、高成本的
    的头像 发表于 04-01 09:15 856次阅读
    六博光电船载激<b class='flag-5'>光通信</b>系统:开启水上高速<b class='flag-5'>通信</b>新纪元

    六博光电支持OpenVLC推出高性价比可见光通信模组

    在科技飞速发展的今天,通信技术领域不断涌现出创新成果。可见光通信(VisibleLightCommunication,VLC)作为一种极具潜力的新兴通信技术,正逐渐走进人们的视野。六博光电致力于无线
    的头像 发表于 03-14 09:52 1009次阅读
    六博光电支持OpenVLC推出高性价比可见<b class='flag-5'>光通信</b>模组

    光通信网络故障排除技巧

    光通信网络以其高速、大容量和抗干扰性在现代通信系统中占据着举足轻重的地位。然而,随着网络规模的扩大和复杂性的增加,故障排除成为了网络维护中的一项重要任务。 1. 故障诊断的基本原则 在
    的头像 发表于 01-23 09:42 1651次阅读

    光通信网络的优势分析

    。光纤通信利用光信号传输信息,相较于传统的电信号,光信号在光纤中的传输速度更快,损耗更低。这使得光通信网络能够支持更高的数据传输速率,满足现代高速互联网、数据中心等应用场景的需求。 2. 大容量传输
    的头像 发表于 01-23 09:36 1453次阅读

    光通信与电通信的区别

    在现代通信技术中,光通信和电通信是两种主要的通信方式。随着科技的发展,这两种技术在各自的领域内都取得了显著的进步。 1. 传输介质 光通信
    的头像 发表于 01-23 09:35 3638次阅读

    光通信在数据中心的应用

    在数字化时代,数据中心作为信息处理和存储的核心,承担着海量数据的传输和处理任务。随着云计算、大数据、人工智能等技术的发展,数据中心的规模和复杂性不断增加,对内部通信网络的性能要求也越来越高。光通信
    的头像 发表于 01-23 09:33 1749次阅读

    基于ptp的分布式系统设计

    。 PTP概述 PTP是一种网络时间同步协议,它允许网络中的设备同步它们的时钟。PTP基于IEEE 1588标准,旨在提供亚微秒级别的时间同步精度。PTP通过在网络中传播时间信息,并使用这些信息来校正本地时钟,从而实现精确的时间
    的头像 发表于 12-29 10:09 977次阅读

    分布式、域控及SOA架构车身功能测试方案

    北汇信息推出分布式、域控以及SOA架构的车身功能测试解决方案,支持在实验室环境下完成车身单部件、系统级功能自动化测试,可以极大地提升车身功能的可靠性和稳定性。
    的头像 发表于 12-27 09:05 3387次阅读
    <b class='flag-5'>分布式</b>、域控及SOA<b class='flag-5'>架构</b>车身功能测试方案