0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

软件定义数据中心L1层全光交换解决方案

凌云光子 来源:凌云光子 2023-05-12 15:23 次阅读

人工智能计算领域的领导者NVIDIA公司,在OFC 2023会议上发表的“Software-defined, programmable L1 dataplane: demonstration of fabric hardware resilience using optical switches”论文中,介绍了其最新的工作成果,提出了一种用于数据中心网络的可编程光纤结构设计,利用HUBER+SUHNER Polatis矩阵光开关将SDN扩展到L1。并在其HPC/ML测试台上进行了实验,利用可编程网络自动从硬件或软件故障中进行故障切换。

文章概述

软件定义的控制平面彻底改变了网络。应用程序可以按需求配置网络,即使需要与其他负载共享网络资源。如今,网络基础设施的深度编程可深入到第2层(L2),例如InfiniBand(IB)子网管理器(SM)是软件定义控制器的最低级别。这意味着网络的可编程性无法作用于物理基础设施布线,通常来讲物理基础设施在部署后是固定的。我们通过引入一种工作流程,即将软件定义的控制能力扩展到L1,来消除这一限制。软件定义的物理层将网络布线从刚性基础设施转换为可编程资源,允许在网络运行时进行物理拓扑更改。这为各种过去不可行的、新的网络操作奠定了基础,但同时带来了新的影响:需要在网络堆栈的更高级别处理。

基于光开关的实现的在网络运行时的L1可编程性使得几个新应用得以实现。第一个也是我们当前评估的重点,是针对网络结构(交换机收发器和/或服务器)中的硬件故障和软件故障提供弹性。失效对计算集群的利用率和效率的影响在整个行业都很明显,这使创建弹性网络变得非常重要。业务关键型应用程序需要保证持续可用性:停机意味着收入损失、客户流失以及公司声誉受损。L1可编程性的另一个潜在应用是根据应用程序需求修改网络的物理拓扑,例如在胖树的叶交换机之间创建环面/网格,以减少对延迟敏感的应用程序的通信时间。或在超额订阅的网络中,根据需要将带宽分配给网络的各个部分,以根据物理拓扑提供不同的QoS。L1可编程性还可以在物理层中应用隔离,断开多个租户之间的网元,或隔离已被识别为潜在威胁的主机。我们的PoC基于IB架构,但同样适用于NVLINK和以太网

由于无法更改物理连接,当前的故障恢复解决方案侧重于通过调整转发配置来尽可能排除故障路径。例如在IB网络中的软件特性有SHIELD和利用替代路径的自适应路由。这些协议有两个显著的局限性。首先,它们只能在存在替代路径的情况下使用;叶交换机上的故障(将断开服务器与网络的连接)或服务器上的故障无法通过这种方式缓解。其次,他们无法恢复集群的全部性能。另一种增强弹性的方法是添加冗余硬件来备份整个或部分网络(例如,Dual ToR)。这种方法的缺点是需要更多的硬件,资源未得到充分利用。

弹性系统的可重构结构

我们利用光开关来实现L1可编程数据平面。光开关可对光路进行重定位,光路的I/O排列由电接口定义控制。如图1a所示,通过在给定网络拓扑的交换层之间引入光开关,实现了点对点光纤连接排列的可编程更改。图1a显示了针对小规模二级(叶脊架构)胖树中的弹性应用的网络架构。在网络中增加了冗余交换机(RS–冗余脊交换机和RL–冗余叶交换机)和冗余服务器。冗余设备与主网络元件一并连接到光开关的可用端口。当检测到设备故障时,对应的光开关会执行修正配置:断开故障设备与网络的连接,用冗余设备替换。该设计允许可编程的弹性程度(主设备和冗余设备的比率)根据系统要求而变化。此外,该体系结构可以隔离安全威胁,最大限度地减少维护期间的停机时间,同时作为通用的可编程数据平面。

我们设计并实现了相应的控制平面软件,可以看作L1数据平面控制的SDN堆栈扩展。设计了图形化后端来反映物理网络拓扑结构(包括光交换部件),为控制器逻辑提供所需的系统建模支持。随后,引入了一组概念和算法,允许SDN L1控制器识别给定部署的不同拓扑可能性,执行物理拓扑变化,并向L2层控制器发出信号以适应物理网络的变化。图1(b和c)显示了系统控制回路,紫色的SDN L1(光纤结构管理器-OFM)是执行物理更改并向L2(在IB的情况下是子网管理器)发送通知的软件。同样地,可以扩展L2来请求物理拓扑更改。故障检测机制(超出当前工作范围)通知OFM需要更换设备。OFM计算并强制执行相应的光学连接,例如,在Leaf交换机故障的情况下,图1a中的RL1将其替换。随后,网络控制器将RL1囊括在网络中。该工作流程能够在几秒钟内将网络容量恢复到100%。此外,如本文下几节所讨论,我们正在进行防止设备故障导致的应用程序崩溃的工作。

4622988c-f079-11ed-90ce-dac502259ad0.png

图1: a)弹性体系结构概述 b)控制回路流程图和 c)软件概述

试验台说明

为了验证网络弹性,所有小规模POD连接中都配置了一个光开关,并在叶层和脊层各添加了一个冗余的IB交换机,以替换失效的叶交换机或脊交换机。测试台由4台DGX服务器和14台IB量子交换机组成:其中8台作为叶交换机,4台作为脊交换机。两个额外的IB交换机作为冗余设备:一个冗余叶交换机(RL,如图1a所示)和一个冗余脊交换机(RS)。我们使用现成的L1光开关【POLATIS】。光链路则选择了200 Gb/s CWDM可插拔光模块,其显著减少了所需的光开关端口,且有足够的链路预算来支持光开关的损耗。DGX具有8个IB接口(8个通道),每个通道连接到不同的Leaf交换机。叶交换机与脊交换机完全连接,即没有超额负载。所有连接都接入光开关,以进行各种实验;当前评估重点关注IB交换机的更换。

实验程序和结果

我们进行了交换机失效模拟,触发SDN L1控制器搜索物理拓扑以减轻故障。冗余交换机接管了物理拓扑中故障交换机的角色,IB子网管理器接收到拓扑更改通知,该通知指示其修复L2网络配置。通过适当地处理IB传输超时,运行中的应用程序可以在网络更改后恢复运行。

图2显示了我们对UCX和NCCL集体通信库的测试结果。在该测试场景中,进行了IB交换机故障模拟。图表显示了实验中涉及的一个DGX的IB界面上的带宽(y轴)随时间(x轴)的变化,对于all-to-all和all-reduce的微基准测试。基准测试在4个DGX之间和接口之间产生相同的流量。我们运行微基准测试,模拟故障,并监控随着时间的推移应用程序的性能和状态。在Spine故障期间,由于活动链路的减少,系统的容量会降低,但应用程序有可替代路径可用,不会崩溃。启用弹性方案后,可以在几秒钟内恢复群集的全部性能(Spine故障切换)。在Leaf层发生故障(Leaf failover)的情况下,应用程序崩溃,受影响的IB接口将保持离线状态,直到问题解决。启用弹性方案后,应用程序在中断几秒钟(目前约为7秒,但有待优化)仍能继续运行,系统的全部容量也能够恢复。

477ae20c-f079-11ed-90ce-dac502259ad0.jpg

图2:在启用弹性解决方案的情况下,演示微基准的BW恢复:a)在左侧OSU上,全部到全部,b)在右侧NCCL上,全部减少。显示所有链路随时间变化的带宽:黄色部分显示Tx带宽,而紫色部分显示Rx带宽。一个DGX的所有链路的图都重叠。

结论

我们提出了一个系统设计和工作流程,结合起来实现了L1的可编程性。构建了一个HPC/ML测试台,并通过模拟交换机故障场景来评估弹性应用。通过添加光交换网络和冗余设备,可在几秒钟内自动恢复全部容量;此外,可以避免在叶级故障期间发生的应用程序崩溃。在未来的工作中,我们计划提供成本分析和其他实验的详细结果,包括其他应用。

凌云光自2001年起即关注光交换技术、产品与应用的推广,2015年正式与全球光交换厂家HUBER+SUHNER Polatis公司建立战略合作伙伴关系,共同开创光交换应用的新时代。

HUBER+SUHNER Polatis 提供低损耗的全光交换解决方案,用于远程光纤层配置、保护、监控、重新配置和测试。基于可靠的、经过现场验证的 DirectLight 光学矩阵开关技术,Polatis 动态光纤交叉连接可从8x8扩展到 576x576端口,并实现完全透明的连接,具有低损耗和无背反射,完全独立于波长、功率或数据速率。动态光交叉连接是实现软件定义的光网络基础设施自动化和虚拟化的关键要素。Polatis 支持RESTCONF和NETCONF,可轻松与 OpenDaylight 等流行的 SDN 控制器集成,还与前沿的传输 SDN 供应商合作,以支持新兴标准并确保我们的客户受益于可靠的 SDN 解决方案。

关注我们

凌云光股份以光技术创新为基础,围绕机器视觉与光纤光学开展业务,致力于成为视觉人工智能与光电信息领域的全球领导者。公司曾获得一项国家技术发明一等奖和两项国家科学技术进步二等奖。

公司战略聚焦机器视觉业务,坚持“为机器植入眼睛和大脑”,为客户提供可配置视觉系统、智能视觉装备与核心视觉器件等高端产品与解决方案。

在光纤光学领域,扎根光纤技术的5大主要应用领域(光纤激光,光纤传感,电信通信,数据通信,科学通信),挖掘国际领先技术的高端光电器件、高端设备和仪表等优秀产品资源,结合自主研发产品,希望构建领先的高端产品解决方案,引领和创造国内行业客户需求,助力中国光技术领域的科技水平提升,助力国家重大科技项目,助力产业化发展!

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    112

    文章

    15239

    浏览量

    171241
  • 以太网
    +关注

    关注

    40

    文章

    5079

    浏览量

    166251
  • 网络
    +关注

    关注

    14

    文章

    7251

    浏览量

    87448
  • 数据中心
    +关注

    关注

    15

    文章

    4189

    浏览量

    70116
  • 人工智能
    +关注

    关注

    1776

    文章

    43899

    浏览量

    230645

原文标题:应用分享 | 软件定义数据中心L1层全光交换解决方案

文章出处:【微信号:凌云光子,微信公众号:凌云光子】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    软件定义数据中心,需要考虑哪些问题?

    SDN已经成为“软件定义数据中心(SDDC)”大范畴的中心,而它主要建立在3个重要的基础之上:可编程性、软件
    发表于 05-14 10:01 1032次阅读

    锐捷网络中标中国联通数据中心集采项目

    述所有项目中均获得优秀成绩,综合评比以高分胜出。    作为中国数据通信解决方案领导品牌,锐捷网络数据中心交换机产品在性能、功能、可靠性等各项指标上,始终保持着业内领先的位置。特别是本
    发表于 01-24 10:14

    模块将如何演变以适应未来数据中心需求?

    发展到超100G以满足这些需求。其中一个衡量数据中心交换机最重要的值是前面板带宽。也就是所有模块需适应宽19”,高1RU交换设备的聚合带宽
    发表于 03-01 11:28

    聚焦云数据中心增长:MACOM新技术颠覆行业成本

    一席之地。面对云数据中心的快速发展,MACOM公司推出的单波长100Gbps PAM-4解决方案是业界首款完整的‘交换芯片到光纤’产品组合,能够优化整个信号通道,进一步确保链接安全。”——Tracy Ma
    发表于 07-04 10:38

    飞速(FS)数据中心交换机为什么受欢迎?

    多种应用的工作负荷,在单个系统上运行多种系统环境,提高系统的可用性,在系统自检迁移虚拟环境。 三、数据中心交换机的要求分析了上述的问题,我们可以得出,数据中心交换机需满足以下几点要求
    发表于 10-16 16:28

    数据中心布线方案数据中心怎样选择光纤布线?

    MTP光纤跳线可支持100米的数据传输。 上述就是易飞扬通信为大家介绍的在数据中心选择光纤布线解决方案。 易飞扬提供有源光缆的长度定制服务,可以满足您多样化的需求。想了解更多详细信息,请访问易飞扬通信官网(gigalight.
    发表于 04-20 14:40

    请问光学模块如何进化以满足数据中心需求?

    数据中心交换机的最重要的值之一是前面板带宽。也就是说,所有的模块都需要适应宽19“,高1RU交换设备的汇聚带宽。
    发表于 05-23 16:20

    数据中心100G QSFP28模块优势

    6W到24W之间。由此看来,QSFP28模块要比其他100G模块的功耗要低得多。成本现在的数据中心主要是10G网络架构,其互连解决方案主要是10G-SR
    发表于 07-06 14:37

    网络发展怎么改变企业数据中心的面貌的

    )定位为下一代数据中心选择的网络技术有三大驱动因素:性能、智能、效率。   任何存储结构的关键要求是高性能、智能且高效的端到端网络解决方案,该解决方案针对存储进行了优化,能够可靠高效并安全地交付各种
    发表于 08-16 15:08

    数据中心光互联解决方案

      数据中心光互联解决方案  随着数据中心在全球的大规模部署,数据中心对于100Gbps模块的需求时代已经到了,而对于10G/40Gbps模块的需求依然强劲。  SMC针对
    发表于 07-03 10:36

    华为发布全新400GE数据中心交换机:768端口世界第一

    效率30%,并实现了计算、存储、业务三张网合一,TCO成本降低了30%。  此外,华为还实现了业界唯一的L3级数据中心生命周期自动驾驶网络,可以做到1分钟故障感知、3分钟故障定位、5
    发表于 07-25 16:25

    未来数据中心模块发展假设

    更少的交换机,以节约机房资源。低功耗数据中心光模块也需要持续向低功耗演进,数据中心交换机背板插满了模块,若散热问题无法妥善解决,将会影响到
    发表于 08-07 10:27

    阿朗创新型数据中心交换解决方案荣获Best of Interop大奖

    阿尔卡特朗讯(巴黎证交所和纽约证交所:ALU)宣布,其创新型数据中心交换蓝图解决方案荣获数据中心与存储类“Best of Interop”大奖
    发表于 05-30 09:45 635次阅读

    数据中心解决方案

    数据中心解决方案 ,很有用的内容PDF。
    发表于 01-06 16:44 0次下载

    软件定义数据中心

    电子发烧友网站提供《软件定义数据中心.pdf》资料免费下载
    发表于 08-10 16:10 0次下载
    <b class='flag-5'>软件</b><b class='flag-5'>定义</b><b class='flag-5'>数据中心</b>