0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

单芯片性能不抵拓展性,数据中心的交换矩阵

842221752 来源:电子发烧友 作者:周凯扬 2024-04-04 00:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)在现代数据中心架构中,网络和计算设备都部署在两层甚至三层的互联矩阵中,与传统的多层架构不同,数据中心的交换矩阵促成了服务器架构的扁平化,进一步缩短了数据中心内不同端点之间的距离,提高效率的同时,也降低了延迟。

可以说交换矩阵技术决定了数据中心的扩展性,相较传统的网络交换矩阵而言,如今的复杂计算交换矩阵,也就是我们所说的芯片外互联技术,更是提高算力的重要解决方案之一。

英伟达NVLink和NV Switch

与其他公司采用的通用交换矩阵技术不同,英伟达凭借其在互联交换技术上的积累,再结合收购Mellanox获得的技术,为其GPU产品打造并迭代了NVLink和NVSwitch技术。

以目前的英伟达GPU服务器集群为例,集群内的GPU通过NVSwitch交换机,以NVLink来实现互相通信。如今NVLink技术已经发展至第五代,NVSwitch也已经发展至第四代NVLink Switch。

随着GB200的出现,英伟达已经实现了单Blackwell GPU支持18个NVLink连接的可拓展性,也使得总带宽达到了1.8TB/s,是第四代NVLink技术的两倍,更是远超PCIe 5.0。

单个GB200 NVL72服务器更是可以集成72个GB200 GPU,依靠NVLink Switch实现130TB/s的总带宽,这样的可拓展性对于提高现在的大模型训练规模和速度来说尤为重要,NVL72就可以普遍用于训练万亿参数级别的大模型。

AMD Infinity Fabric

虽然很多AI加速器初创企业或英伟达的竞争对手,都会鼓吹单个GPU或加速器的性能本身,但如果不能从扩展性上缩短差距,也很难被云服务厂商和数据中心大规模商用。以英伟达的老对手AMD为例,他们的MI300系列在交换矩阵的支持上由128链路组成,其中64个支持PCIe 5.0和自研的Infinity Fabric,另外64个则仅支持Infinity Fabric。

在单芯片或单个服务器上的性能可能会更加优异,但一旦扩展至数百个服务器的规模下,就很难继续保持优势了。AMD也很清楚自己需要缩小这一差距,但仅仅依靠自身在Infinity Fabric交换矩阵上的积累,很难打通整个生态,所以AMD选择了合作开放一途。

早在去年AMD的Advancing AI大会上,AMD就宣布向生态合作伙伴开放自己的Infinity Fabric IP(XGMI),呼吁别的交换芯片厂商对Infinity Fabric加以支持。比如博通就表示,其下一代PCIe交换芯片,除了支持PCIe、CXL之外,也将支持AMD的Infinity Fabric。

然而这里指的并不是今年下半年才送样的PCIe 6.0交换芯片,Atlas 3系列,而是PCIe 7.0的Atlas 4系列。由此看来,要想真正见到第三方交换矩阵方案支持AMD的Infinity Fabric,还得等到PCIe 7.0正式面世。

写在最后

对于市面上其他的AI加速器而言,开放标准或已有的商用标准是他们的最好选择,比如PCIe、CXL等等。除此之外,据了解一些与缓存一致性相关的专利即将过期,或许对于一些初创公司来说,未来会有开源的高端交换互联方案供他们选择。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74644
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    产品彩页-CX-N系列数据中心交换

    CX-N系列数据中心交换机面向AI/ML(人工智能/机器学习)智算中心和云计算数据中心提供一站式全开放网络解决方案,具备低时延、高性能、高密
    发表于 10-29 13:55 1次下载

    华为荣获2025年上半年数据中心交换机中国市场第一

    近日,全球领先的IT市场研究和咨询公司IDC发布了最新的《中国以太网交换机市场跟踪报告,2025Q2》。报告显示,华为(CloudEngine系列数据中心交换机)在2025年上半年以31.5%的份额
    的头像 发表于 09-16 15:13 2511次阅读
    华为荣获2025年上半年<b class='flag-5'>数据中心</b><b class='flag-5'>交换</b>机中国市场第一

    提升AI数据服务器交换性能与效率的关键:永铭电容的应用

    YMIN永铭电容应用AI数据中心服务器·交换机随着AI技术的快速发展,数据中心和服务器的性能需求不断增加。作为AI服务器基础架构中的重要组成部分,
    的头像 发表于 09-01 10:04 246次阅读
    提升AI<b class='flag-5'>数据</b>服务器<b class='flag-5'>交换</b>机<b class='flag-5'>性能</b>与效率的关键:永铭电容的应用

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据
    发表于 07-29 15:02

    中型数据中心中的差分晶体振荡器应用与匹配方案

    中型数据中心的定义与特点 中型数据中心通常服务于中大型企业、科研机构或地方行业节点,具备50至200个机柜,部署多台服务器、交换设备、存储系统与光通信链路等,强调高带宽、低延迟与高可用性。关键设备
    发表于 07-01 16:33

    华为连续9年稳居中国数据中心交换机市场第一

    近日,全球领先的IT市场研究和咨询公司IDC发布了最新的《中国以太网交换机市场跟踪报告,2025Q1》。报告显示,华为CloudEngine系列数据中心交换机在2025年第一季度以31.6%的份额
    的头像 发表于 06-26 11:32 1467次阅读

    小型数据中心晶振选型关键参数全解

    的准确传输。 芯片型号 Intel I350-AM4:适用于10GbE和1GbE的网络接口卡,广泛应用于数据中心和网络交换设备中。 Broadcom BCM57414:支持10GbE网络接口卡,适合
    发表于 06-11 13:37

    数据中心都在用的差分晶振,看完你就懂了

    数据中心
    FCom富士晶振
    发布于 :2025年05月30日 13:12:30

    适用于数据中心和AI时代的800G网络

    数据中心依赖数千甚至上万个GPU集群进行高性能计算,对带宽、延迟和数据交换效率提出极高要求。 AI云:以生成式AI为核心的云平台,为多租户环境提供推理服务。这类数据中心要求网络具
    发表于 03-25 17:35

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    的三大主流布线解决方案——高速线缆(DAC)、有源光缆(AOC)和光纤跳线,并分析它们如何提高性能并支持现代数据中心不断增长的需求。 800G数据中心高速线缆和有源光缆解决方案 高速线缆(DAC
    发表于 03-24 14:20

    华为继续领跑中国数据中心交换机市场第一

    近日,全球领先的IT市场研究和咨询公司IDC发布了最新的《中国以太网交换机市场跟踪报告,2024Q4》。报告显示,华为CloudEngine系列数据中心交换机在2024年全年以41.9%的份额,蝉联
    的头像 发表于 03-19 16:04 1182次阅读

    新思科技助力下一代数据中心AI芯片设计

    Multi-Die设计正成为增强数据中心现代计算性能、可扩展性和灵活性的关键解决方案。通过将传统的单片设计拆分为更小的异构或同构芯片(也称小芯片
    的头像 发表于 02-20 09:17 841次阅读
    新思科技助力下一代<b class='flag-5'>数据中心</b>AI<b class='flag-5'>芯片</b>设计

    AI与数据中心驱动下 芯片电感的技术革命

    面对人工智能技术的飞速发展,数据中心的高功率计算需求给芯片电感带来了哪些前所未有的挑战与机遇呢? 随着人工智能技术的持续进步和应用领域的不断拓展数据中心正面临着前所未有的挑战,特别是
    的头像 发表于 12-18 16:12 1027次阅读
    AI与<b class='flag-5'>数据中心</b>驱动下 <b class='flag-5'>芯片</b>电感的技术革命

    华为稳居中国数据中心交换机市场第一

    近日,全球领先的IT市场研究和咨询公司IDC发布了最新的《IDC中国以太网交换机市场跟踪报告,2024Q3》。报告显示,在2024年第三季度,华为CloudEngine系列数据中心交换机以40.4
    的头像 发表于 12-17 09:57 3165次阅读

    探秘物联数据中心:设备全知道

    物联数据中心设备种类繁多,包括路由器、4G 转 WIFI、交换机和监控设备。路由器和交换机负责网络和数据交换,监控设备保障机房稳定运行。
    的头像 发表于 12-12 17:21 1220次阅读
    探秘物联<b class='flag-5'>数据中心</b>:设备全知道