0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

你们知道什么是叶脊网络吗

iotmag 来源:鲜枣课堂 作者:鲜枣课堂 2021-05-31 10:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天这个故事,要从67年前开始说起。

1953年,贝尔实验室有一位名叫Charles Clos的研究员,发表了一篇名为《A Study of Non-blocking Switching Networks》的文章,介绍了一种“用多级设备来实现无阻塞电话交换”的方法。

自从1876年电话被发明之后,电话交换网络历经了人工交换机、步进制交换机、纵横制交换机等多个阶段。20世纪50年代,纵横制交换机处于鼎盛时期。

纵横交换机的核心,是纵横连接器。如下图所示:

cc077e84-bfa4-11eb-9e57-12bb97331649.jpg

纵横制接线器

这种交换架构,是一种开关矩阵,每个交点(Crosspoint)都是一个开关。交换机通过控制开关,来完成从输入到输出的转发。

可以看出,开关矩阵很像一块布的纤维。所以,交换机的内部架构,被称为Switch Fabric。Fabric,就是“纤维、布料”的意思。

Fabric这个词,我相信所有核心网工程师和数通工程师都非常熟悉。“Fabric平面”、“Fabric总线”等概念,经常出现在工作中。

随着电话用户数量急剧增加,网络规模快速扩大,基于crossbar模型的交换机在能力和成本上都无法满足要求。于是,才有了文章开头Charles Clos的那篇研究文章。

Charles Clos提出的网络模型,核心思想是:用多个小规模、低成本的单元,构建复杂、大规模的网络。例如下图:

cc637162-bfa4-11eb-9e57-12bb97331649.jpg

图中的矩形,都是低成本的转发单元。当输入和输出增加时,中间的交叉点并不需要增加很多。

这种模型,就是后来产生深远影响的CLOS网络模型。

到了80年代,随着计算机网络的兴起,开始出现了各种网络拓扑结构,例如星型、链型、环型、树型。

树型网络逐渐成为主流,大家也非常熟悉。

传统的树型网络,带宽是逐级收敛的。什么是收敛呢?物理端口带宽一致,二进一出,不就1:2的收敛了嘛。

2000年之后,互联网从经济危机中复苏,以谷歌和亚马逊为代表的互联网巨头开始崛起。他们开始推行云计算技术,建设大量的数据中心IDC),甚至超级数据中心。

面对日益庞大的计算规模,传统树型网络肯定是不行的了。于是,一种改进型树型网络开始出现,它就是胖树(Fat-Tree)架构。

胖树(Fat-Tree)就是一种CLOS网络架构。

相比于传统树型,胖树(Fat-Tree)更像是真实的树,越到树根,枝干越粗。从叶子到树根,网络带宽不收敛。

胖树架构的基本理念是:使用大量的低性能交换机,构建出大规模的无阻塞网络。对于任意的通信模式,总有路径让他们的通信带宽达到网卡带宽。

胖树架构被引入到数据中心之后,数据中心变成了传统的三层结构:

ccbbd884-bfa4-11eb-9e57-12bb97331649.jpg

接入层:用于连接所有的计算节点。通常以机柜交换机(TOR,Top of Rack,柜顶交换机)的形式存在。

汇聚层:用于接入层的互联,并作为该汇聚区域二三层的边界。各种防火墙、负载均衡等业务也部署于此。

核心层:用于汇聚层的的互联,并实现整个数据中心与外部网络的三层通信。

在很长的一段时间里,三层网络结构在数据中心十分盛行。在这种架构中,铜缆布线是主要的布线方式,使用率达到了80%。而光缆,只占了20%。

用着用着,人们发现,传统三层架构有很多的缺点。

首先,是资源的浪费。

传统三层结构中,一台下层交换机会通过两条链路与两台上层交换机互连。

由于采用的是STP协议( Spanning Tree Protocol,生成树协议),实际承载流量的只有一条。其它上行链路,是被阻塞的(只用于备份)。这就造成了带宽的浪费。

其次,是故障域比较大。

STP协议由于其本身的算法,在网络拓扑发生变更时需要重新收敛,容易发生故障,从而影响整个VLAN的网络。

第三点,也是最重要的一点——随着时间推移,数据中心的流量走向发生了巨大变化。

2010年之后,为了提高计算和存储资源的利用率,所有的数据中心都开始采用虚拟化技术。网络中开始出现了大量的虚拟机(VM,Virtual Machine)。

与此同时,微服务架构开始流行,很多软件开始推行功能解耦,单个服务变成了多个服务,部署在不同的虚拟机上。虚拟机之间的流量,大幅增加。

这种平级设备之间的数据流动,我们称之为“东西向流量”。

相对应的,那种上上下下的垂直数据流动,称为“南北向流量”。这个很容易理解,“上北下南,左西右东”嘛。

东西向流量,其实也就是一种“内部流量”。这种数据流量的大幅增加,给传统三层架构带来了很大的麻烦——因为服务器和服务器之间的通信,需要经过接入交换机、汇聚交换机和核心交换机。

这意味着,核心交换机和汇聚交换机的工作压力不断增加。要支持大规模的网络,就必须有性能最好、端口密度最大的汇聚层核心层设备。这样的设备成本高,价格非常昂贵。

于是乎,网络工程师们提出了“Spine-Leaf网络架构”,也就是我们今天的主角——叶脊网络(有时候也被称为脊叶网络)。Spine的中文意思是脊柱,Leaf是叶子。

叶脊网络架构,和胖树结构一样,同属于CLOS网络模型。

相比于传统网络的三层架构,叶脊网络进行了扁平化,变成了两层架构。如下图所示:

cd96adb0-bfa4-11eb-9e57-12bb97331649.jpg

叶交换机,相当于传统三层架构中的接入交换机,作为 TOR(Top Of Rack)直接连接物理服务器。叶交换机之上是三层网络,之下都是个独立的 L2 广播域。如果说两个叶交换机下的服务器需要通信,需要经由脊交换机进行转发。

脊交换机,相当于核心交换机。叶和脊交换机之间通过ECMP(Equal Cost Multi Path)动态选择多条路径。

脊交换机下行端口数量,决定了叶交换机的数量。而叶交换机上行端口数量,决定了脊交换机的数量。它们共同决定了叶脊网络的规模。

叶脊网络的优势非常明显:

1、带宽利用率高每个叶交换机的上行链路,以负载均衡方式工作,充分的利用了带宽。

2、网络延迟可预测在以上模型中,叶交换机之间的连通路径的条数可确定,均只需经过一个脊交换机,东西向网络延时可预测。

3、扩展性好当带宽不足时,增加脊交换机数量,可水平扩展带宽。当服务器数量增加时,增加脊交换机数量,也可以扩大数据中心规模。总之,规划和扩容非常方便。

4、降低对交换机的要求南北向流量,可以从叶节点出去,也可从脊节点出去。东西向流量,分布在多条路径上。这样一来,不需要昂贵的高性能高带宽交换机。

5、安全性和可用性高传统网络采用STP协议,当一台设备故障时就会重新收敛,影响网络性能甚至发生故障。叶脊架构中,一台设备故障时,不需重新收敛,流量继续在其他正常路径上通过,网络连通性不受影响,带宽也只减少一条路径的带宽,性能影响微乎其微。

我们来结合一个案例模型,分析一下叶脊网络的支持能力。

假设一个这样的资源条件:

脊交换机数量:16台 每个脊交换机的上联端口:8个 × 100G每个脊交换机的下联端口:48个 × 25G叶交换机数量:48台每个叶交换机的上联端口:16个 × 25G每个叶交换机的下联端口:64个 × 10G

在理想情况下,这样的叶脊网络总共可支持的服务器数量为:48×64=3072台。(注意,叶脊交换机北向总带宽一般不会和南向总带宽一致,通常大于1:3即可。上例为400:640,有点奢侈了。)

从这个例子也可以看出,叶脊网络带来了一个趋势,那就是对光模块的数量需求大幅增加。

下图就是传统三层架构和叶脊架构所使用光模块数量的对比案例,差别可能达到15-30倍之多。

cde7e1da-bfa4-11eb-9e57-12bb97331649.png

(来自国泰君安证券研究)

正因为如此,资本市场对叶脊网络非常关注,希望借此带动光模块市场的增长,尤其是100G、400G这样的高速率光模块。

叶脊拓扑网络从2013年左右开始出现,发展速度惊人,很快就取代了大量的传统三层网络架构,成为现代数据中心的新宠。

最具有代表性的,是Facebook在2014年公开的数据中心架构。Facebook使用了一个五级CLOS架构,甚至是一个立体的架构。大家有兴趣可以研究一下。

Facebook数据中心架构

除了Facebook之外,谷歌公司的第五代数据中心架构Jupiter也大规模采用了叶脊网络,其可以支持的网络带宽已经达到Pbps级。谷歌数据中心中10万台服务器的每一个,都可以用任意模式以每秒10千兆比特的速度互相通信。

好啦,关于叶脊网络的介绍,今天就到这里。

感谢大家的耐心观看,我们下期再见!

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 拓扑
    +关注

    关注

    4

    文章

    353

    浏览量

    30541
  • 网络
    +关注

    关注

    14

    文章

    8340

    浏览量

    95592
  • 数据中心
    +关注

    关注

    18

    文章

    5780

    浏览量

    75212
  • 千兆
    +关注

    关注

    0

    文章

    43

    浏览量

    12717
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    浅谈FPGA在无风扇控制器中的应用

    本项目探讨了基于FPGA控制器的无风扇,它能够带来无叶片的空气流动体验。FPGA的灵活性和性能使得它非常适合用于实时控制和信号处理。
    的头像 发表于 04-22 09:29 410次阅读

    [VirtualLab] 薄元近似(TEA)与傅里模态法(FMM)的光栅建模

    摘要 对于背光系统、光内连器和近眼显示器等许多应用来说,将光高效地耦合到引导结构中是一个重要的问题。对于这种应用,倾斜光栅以能够高效地耦合单色光而闻名。在本例中,提出了利用严格傅里模态方法(FMM
    发表于 04-22 08:21

    为发动机叶片做“气动体检”:航空栅风洞试验全解析

    航空栅风洞试验是航空发动机设计与研究中的关键测试手段,主要用于模拟航空发动机压气机、涡轮等叶片组件在气流中的工作环境,以研究叶片的气动特性、振动行为及流场分布,确保发动机性能与安全性。这类风洞通过
    的头像 发表于 04-03 15:43 205次阅读
    为发动机叶片做“气动体检”:航空<b class='flag-5'>叶</b>栅风洞试验全解析

    选择园区网络基础设施:单模光纤与多模光纤的比较

    您现在正在为一座新园区制定计划,这里将成为多个总部、研发机构、自动化工厂、以及一两处停车场的所在地。考虑的一个问题就是连接园区网络的基础设施。 1选择的将会是光纤,然而,是哪种光纤呢? 你们当中
    的头像 发表于 12-25 10:18 462次阅读

    芯源的CRC硬件计算谁用过吗?MCU的CRC你们喜欢用硬件的还是软件的啊?

    芯源的CRC硬件计算谁用过吗?MCU的CRC你们喜欢用硬件的还是软件的啊?
    发表于 12-01 08:25

    大神们,想知道你们都用什么ide编程调试器? Arduino IDE?还是 e2studio ?还有其他吗?哪个好用呢

    大神们,想知道你们都用什么ide编程调试器? Arduino IDE? 还是 e2studio ? 还有其他吗? 哪个IDE好用呢? 求指点呀
    发表于 11-30 12:05

    数学-傅里级数的推导

    本篇摘录“信号与系统3-傅里叶变换与频域分析”的小部分内容,作为正弦波生成的傅里级数展开法的补充。 1、矢量的正交分解 两矢量V1与V2正交,夹角为90°,那么两正交矢量的 内积为零 ,如下图所示
    的头像 发表于 10-09 10:23 519次阅读
    数学-傅里<b class='flag-5'>叶</b>级数的推导

    基于脊髓磁刺激的脑接口为哪般

    胫骨前肌,TA)。HUIYING基于脊髓磁刺激的脑接口概述定义:基于脊髓磁刺激的脑接口(BSI)是一种闭环神经接口系统,通过实时解码大脑运动意图(如运动想象),
    的头像 发表于 10-01 16:02 612次阅读
    基于脊髓磁刺激的脑<b class='flag-5'>脊</b>接口为哪般

    植入式脑接口如何让SCI脊髓损伤患者自然行走

    了大脑指令的传递,但腰骶脊髓的步行神经回路本身可能保持完整。BSI的工作原理正是绕过损伤部位,直接激活这些保存完好的下级神经回路。HUIYING植入式脑接口BSI
    的头像 发表于 09-26 18:08 795次阅读
    植入式脑<b class='flag-5'>脊</b>接口如何让SCI脊髓损伤患者自然行走

    无创脑接口距离现实还有多遥远?

    HUIYING脊髓损伤(SCI)运动康复机理脊髓损伤后,大脑与肢体之间的神经通路中断,导致运动功能障碍。传统康复方法(如运动疗法)在慢性期效果有限。脊髓刺激(SCS)通过电刺激激活脊髓神经网络,产生
    的头像 发表于 09-24 18:04 833次阅读
    无创脑<b class='flag-5'>脊</b>接口距离现实还有多遥远?

    全面了解400G DR4光模块:数据中心高速互联的关键选择

    分线到4×100G DR1。其具备高带宽、低延迟、低功耗特性,广泛应用于数据中心互联、AI/ML集群、架构及InfiniBand高性能计算,是提升网络性能与平滑升级的关键技术。
    的头像 发表于 09-22 12:56 1280次阅读

    800G OSFP DR8 光模块:100G PAM4 技术驱动的超高速数据中心互联核心

    800G OSFP DR8光模块采用8×100G PAM4调制,实现800Gbps速率,500米单模光纤传输,功耗
    的头像 发表于 09-01 12:29 1230次阅读

    一文浅谈200G SR4光模块

    200G SR4光模块采用QSFP56封装,通过4路50Gbps并行通道和PAM4调制技术,在OM3/OM4多模光纤上实现100米内200Gbps数据传输。以高密度、低功耗和成本效益为核心优势,广泛应用于数据中心架构、AI集群、高性能计算及云服务内部互联,是下一代数据
    的头像 发表于 06-09 10:29 1525次阅读

    VirtualLab 应用:薄元近似(TEA)与傅里模态法(FMM)的光栅建模

    摘要 薄元近似(TEA)是傅里叶光学中广泛应用的计算光栅衍射效率的方法。然而,我们也知道,对于较小的光栅周期,也就是当其更接近于光的波长时,近似变得不准确。在本例中,选择了两种类型的传输光栅来展示
    发表于 05-22 08:56

    ntp时钟同步服务器是什么?ntp时钟同步服务器介绍

    时间、时钟、时辰是我们非常熟悉的,但是你们知道如今的时间、时钟都是哪里产生的吗?尤其当今网络设备的普及使用,上面几乎都有时间标识,其实他们都是通过一些设备传递的,比如ntp时钟同步服务器,这就是一种
    的头像 发表于 05-13 15:19 1017次阅读
    ntp时钟同步服务器是什么?ntp时钟同步服务器介绍