0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Rail-Only拓扑与PCI Switch:GPU集群间高效通信的核心逻辑

星融元 来源:jf_55437772 作者:jf_55437772 2025-03-26 10:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当前AI推理面临两大核心矛盾

算力需求激增:大模型应用爆发(如实时交互、多模态生成),企业亟需更低延迟、更高吞吐的推理能力;

资源浪费严重:传统架构下,GPU算力闲置率超30%,长文本处理场景首Token延迟飙升至秒级,用户体验流失率增加40%。

DeepSeek-V3/R1的给我们的启示:混合专家模型(MoE)虽需320卡起步,却为超大规模云计算厂商提供了差异化竞争力——吞吐效率提升50%,单用户推理成本降低20%。而对中小客户,“高性价比”仍是刚需,Dense模型凭借灵活部署稳占80%市场份额。

组网架构的“黄金分割”

行业需求驱动架构革新

分离架构:适合头部云厂商(如AWS、阿里云),通过独立优化Prefill(算力密集型)和Decode(带宽密集型)集群,实现超大规模并发下的极致性能,客户可溢价30%提供“高端推理服务”。

统一架构:中小厂商的“降本利器”——单网络支持智能流量调度,硬件投资减少25%,运维成本降低40%,兼容80%现有基础设施,快速抢占中端市场。

采用星融元CX-N系列交换机+RoCEv2技术,单设备支持400G/800G带宽,满足“既要大吞吐又要低延迟”的矛盾需求。

从实验室到生产线:组网设计的成本与效益平衡

Rail-Only拓扑:4 GPU/组共享PCIe链路,服务器内直连减少跳数,适合百卡以下集群,硬件成本降低30%。

wKgZPGfjZk-AVUCAAANHgMm5JfI655.png

GPU服务器内部:每四个GPU作为一组,共享一个并行推理网卡,连接到同一个PCI Switch,两组GPU之间的通信通过两个PCI Switch之间的直连通道完成;

GPU服务器之间:同一组号的GPU之间的通信通过交换机直接完成;不同组号的GPU之间的通信,先通过PCI Swtitch将流量路由到另一组的网卡,然后通过交换机完成;

小规模场景:低成本敏捷部署

wKgZO2fjZn6AdNiDAAY3TFpXC4I846.png

每台推理服务器有8张GPU,2张400G网卡,双归连接到两台CX732Q-N

16个推理服务器(128张GPU)和2个CX732Q-N组成一个PoD。Prefill和Decode服务器可能属于不同PoD

可横向扩展至64个PoD

中大规模场景:性能与扩展性优先

模块化PoD设计:以512 GPU为单元构建独立集群,Prefill与Decode服务器同PoD内一跳互联,时延控制在10μs以内。

横向扩展能力:可横向扩展至64个PoD,支持万卡级集群无缝扩容,满足云计算平台弹性需求。

wKgZO2fjZq6ADWM0AAbvJN4vMng448.png

未来展望:开放生态与硬件迭代的双重助力

尽管DeepSeek尚未开源,但其PD分离架构为行业提供了关键思路。未来趋势将围绕两大方向:

软硬件协同优化:如DPU卸载KV缓存传输任务,进一步释放GPU算力;

边缘AI轻量化:通过模型剪枝与专用推理芯片,在10卡以下环境中实现MoE模型部署。

【参考文献】

https://asterfusion.com/a20250306-scale-out/


审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5351

    浏览量

    136348
  • PCI
    PCI
    +关注

    关注

    5

    文章

    690

    浏览量

    134726
  • AI
    AI
    +关注

    关注

    91

    文章

    42579

    浏览量

    303494
  • 组网
    +关注

    关注

    1

    文章

    465

    浏览量

    23452
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高性能串口通信卡:PCI - 1620与PCI - 1622

    高性能串口通信卡:PCI - 1620与PCI - 1622 在电子工程师的日常工作中,串口通信卡是实现设备通信的关键组件。今天就来为大家详
    的头像 发表于 05-13 12:05 276次阅读

    工业串口通信利器:研华PCI系列通信卡深度剖析

    工业串口通信利器:研华PCI系列通信卡深度剖析 在工业自动化和数据通信领域,串口通信卡是实现设备间数据传输的关键组件。研华的
    的头像 发表于 05-13 10:40 278次阅读

    Java并发编程的“基石”——多线程概念初识

    之下,隐藏着一个庞大而复杂的“算力帝国”。如何将成千上万块 GPU 的算力精准、高效地分配给无数个并发的 AI 任务?这便是 AI 算力调度的核心使命。在这个看似属于 Python 和 C++ 的绝对
    发表于 04-16 18:50

    面向高密度算力需求的AI渲染服务器集群功率MOSFET选型策略与器件适配手册

    随着AI计算与数字内容创作爆发式增长,AI渲染服务器集群已成为数据中心核心算力单元。电源分配与散热系统作为集群“能源与血脉”,为GPU、CPU、高速存储及液冷泵等关键负载提供
    的头像 发表于 03-24 15:09 594次阅读
    面向高密度算力需求的AI渲染服务器<b class='flag-5'>集群</b>功率MOSFET选型策略与器件适配手册

    深入剖析PI7C9X2G304EL:PCI Express Gen 2 Packet Switch的卓越之选

    深入剖析PI7C9X2G304EL:PCI Express Gen 2 Packet Switch的卓越之选 在电子设计的领域中,PCI Express(PCIe)技术以其高速、高效
    的头像 发表于 03-19 17:15 738次阅读

    PI7C9X130:PCI Express与PCI - X的高效桥梁

    PI7C9X130:PCI Express与PCI - X的高效桥梁 在当今的电子系统设计中,如何实现不同总线标准之间的高效连接是一个关键问题。PI7C9X130作为一款
    的头像 发表于 03-13 16:05 411次阅读

    KubePi:开源Kubernetes可视化管理面板,让集群管理如此简单

    的部署、监控和维护,让即使不具备深厚Kubernetes知识的用户也能轻松管理集群。 1.2 核心价值:可视化多集群管理 KubePi允许管理员导入多个Kubernetes集群,并通过
    发表于 02-11 12:53

    读懂高效通信的星型组网

    一、什么是星型组网?一种网络拓扑,所有设备直接连接至一个中心节点,形成“中心发散”的星形结构,实现集中管理、高效通信。二、三大核心特点1.高可靠易维护节点独立连接,单点故障不影响全网;
    发表于 12-09 14:17

    全球迈入 IPv6-Only 关键窗口期

    高效”为核心的IPv6-Only时代,这一倡议的落地,标志着全球数字基础设施建设进入全新发展阶段。来源:全球IPv6论坛官网《倡议》明确了两大核心行动方向:在部
    的头像 发表于 11-25 10:23 825次阅读
    全球迈入 IPv6-<b class='flag-5'>Only</b> 关键窗口期

    PPEC Workbench 平台拓扑全覆盖,满足各类电源开发需求

    电力电子智能化设计平台,以“全拓扑覆盖 + 免代码智能化高效开发 + 生态化协同”为核心,为电力电子行业数字电源开发提供了一站式拓扑解决方案。 如今,电源
    发表于 10-23 11:44

    怎样确定分布式光伏集群通信网络的负载均衡策略?

    LZ-DZ100电能质量在线监测装 确定分布式光伏集群通信网络的负载均衡策略,需结合集群的网络拓扑、数据特征、设备特性及运行需求,通过 “现状分析→目标设定→策略设计→验证优化” 的流
    的头像 发表于 08-22 10:10 778次阅读
    怎样确定分布式光伏<b class='flag-5'>集群</b><b class='flag-5'>通信</b>网络的负载均衡策略?

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    400G/800G光模块已实现规模化量产,并基于AI工厂与AI云的核心需求进行深度优化: 速率突破:采用PAM4调制技术,单通道速率达100Gbps,整模块实现800Gbps传输能力,为GPU集群
    发表于 08-13 19:01

    PCIe协议分析仪在数据中心中有何作用?

    部分GPU通信因交换机拓扑不合理导致延迟高。 调整交换机端口映射,使相邻GPU通过最短路径通信
    发表于 07-29 15:02

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在驱动 KUAE 集群
    的头像 发表于 07-28 13:47 6613次阅读
    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE <b class='flag-5'>集群</b>潜能,引领 <b class='flag-5'>GPU</b> 计算新高度​