0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心与网络架构

田鑫网络 来源:田鑫网络 作者:田鑫网络 2022-09-08 13:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

通常来说,如果一个数据中心服务器规模超过10万台,就可以称large-scale datacenter,也就是常说的大规模数据中心。大规模数据中心对于网络的要求有很多,但是突出的就在于稳定和简单。

这两点要求本身也有一定的关联性。比如,大规模数据中心因为网络设备数量多,所以从统计学的角度来说,出故障的频率也更高。这里说的故障,不仅包括设备本身出现的硬件软件问题,还包括因为运维过程中对设备误操作引起的故障。因此,一个简单的网络设计,例如采用统一的硬件连接方式,使用有限的软件功能,能减少故障概率,从而一定程度提升整个网络架构的稳定性。但是,或许不只对于IT行业,对于任何领域,用简单的方法去解决一个复杂的问题,本身就不简单。因此,这一次分析一下如何用CLOS架构,来“简单的”管理大规模数据中心的网络。

CLOS架构

CLOS架构被广泛应用在现代的数据中心,因为它提供了数据中心的水平扩展能力和大规模数据中心所需要的稳定和简单。下图就是一个基本的CLOS单元,Spine和Leaf交换机共同组成数据中心网络,其中Leaf交换机作为TOR交换机,连接服务器;Spine交换机,为Leaf交换机提供网络连接。

水平扩展能力

想要扩展一个CLOS网络架构,通常有两种方法,就是增加设备的端口数;第二就是增加更多的层级。在现有的spine-leaf基础上,再增加一层super-spine交换机,就可以构成一个5-stages CLOS架构。增加了一层super-spine交换机,数据中心规模也水平扩大了一倍。

稳定简单

从眼来看,CLOS架构是简单的。根据CLOS理论,所有的交换机,不论是Super Spine,Spine和是Leaf,都应该采用同质的交换机。虽然实际应用和文中图里面,都不一定严格按照这个要求来,但是至少是照着这个样式去实现。所以从硬件构成来看,较为简单。其次,CLOS架构采用的是一个纯L3网络的架构,也就是说所有的交换机都是三层交换机,交换机之间都通过IP网络连接的。所以,从网络连接来看,也较为简单。毕竟,传统三层网络架构,要涉及到L2连接,L3连接,VLAN配置等等。

稳定包含很多,除了相对简单的设计,还有就是减少故障范围。0故障是不可能的,这辈子都不可能0故障。我们能做的是限制故障的范围,而CLOS架构下,每个Leaf交换机下都是一个独立的L2 Domain,这样可以将所有二层网络的问题,例如BUM风暴,限制在一个Leaf交换机范围内。

所以网络架构的IP地址分布如下:

看起来似乎很美好,但是相比较传统的三层网络,CLOS架构也有自己的问题,其中包括但不限于以下几点:那如何为CLOS架构选取一个合适的路由协议?常规的选项是使用且仅使用EBGP。BGP一直以IBGP的形式来构建数据中心内部网络,而且是构建在IGP,例如OSPF之上的。而EBGP一般用来连接不同的数据中心。但是在CLOS架构中,EBGP,却是合适的一个协议,因为它能极大简化实现。先因为现在路由条目数增多,这样的量级只有BGP能稳定维护。

其次,因为现在每个Leaf Switch,都管理一个独立的子网。而数据中心内网络连通的前提是,每一个Leaf Switch的子网,都需要传给其他所有的Leaf Switch。这样,相当于每个Leaf Switch都是一个自治域(AS),现在要实现的就是实现所有的自治域的连通。这个问题,就是EBGP在互联网上正在解决的问题。

因此在CLOS架构下,采用了EBGP作为路由协议,具体细节有以下几点:

EBGP连接都是单跳。这样就不用依赖IGP构建nexthop网络,EBGP的nexthop都在链路的另一端。EBGP与IBGP的一个大不同在于,EBGP会转发路由,因此借助Spine和Super Spine上面EBGP程序的转发,一个Leaf的子网信息,可以发布给所有其他Leaf交换机,从而实现全数据中心内网络联通。

但是这里有一个问题,在大规模数据中心里面,按照10万条服务器,一个机架40台服务器算的话,总共会有2500个Leaf交换机,这样,光是Leaf就把 ASN消耗完了。为了解决这个问题,可以使用4字节的ASN(RFC6793);也可以在一组Spine下面,复用ASN,:所以,仅通过EBGP,就是实现了CLOS架构中网络连接需要的全部内容。相比较传统三层网络架构,CLOS架构这里又以简单胜出。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5519

    浏览量

    74652
  • 网络架构
    +关注

    关注

    1

    文章

    99

    浏览量

    13360
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    格罗方德收购AMF与InfiniLink推进硅光技术发展

    人工智能正在重新定义下一代数据中心网络架构方式。随着传统铜缆连接接近性能极限,硅光技术利用光来提供更高的带宽和更优的能效,推动数据中心迎来新一轮创新浪潮。
    的头像 发表于 12-04 11:52 257次阅读

    华为发布数据中心新型网络架构UB-Mesh

      电子发烧友网综合报道 在最近的Hot Chip2025大会上,华为进行了一场线上分享,提出了一种全新的AI数据中心网络架构UB-Mesh。   随着大语言模型(LLM)规模持续扩张,其训练对计算
    的头像 发表于 09-07 06:02 1.1w次阅读
    华为发布<b class='flag-5'>数据中心</b>新型<b class='flag-5'>网络</b><b class='flag-5'>架构</b>UB-Mesh

    光电共封装技术的实现方案

    数据中心网络架构正在经历向光电共封装(CPO)交换机的根本性转变,这种转变主要由其显著的功耗效率优势所驱动。在OFC 2025展会上,这一趋势变得极为明显,从Jensen Huang在GTC
    的头像 发表于 08-22 16:30 2603次阅读
    光电共封装技术的实现方案

    睿海光电:引领400G光模块技术创新,驱动全球AI算力基建升级

    睿海光电:引领400G光模块技术创新,驱动全球AI算力基建升级 在全球数字化浪潮和AI技术迅猛发展的背景下,数据中心网络架构正面临前所未有的升级需求。据行业分析,2025年高速光模块市场规模将突破
    的头像 发表于 08-18 13:54 872次阅读

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区发布全新升级的星河AI数据中心
    的头像 发表于 08-11 10:42 2000次阅读

    中型数据中心中的差分晶体振荡器应用与匹配方案

    核心网络、存储、通信与计算节点。 通过精准选型与合理布线,这些高性能差分晶体振荡器可有效提升数据中心设备间的时钟一致性与传输效率,是构建稳定、可靠、高吞吐量数据中心的关键器件。
    发表于 07-01 16:33

    光通信+分布式架构,突破传统网络架构瓶颈

    电子发烧友网综合报道,随着大语言模型(LLM)参数规模突破万亿级,传统数据中心网络架构(如NVL、TPUv4、SiP-Ring)逐渐暴露出瓶颈。 传统方案依赖昂贵的交换机(如NVIDIA
    的头像 发表于 06-20 09:10 3921次阅读

    数据中心和通信网络有什么区别

    数据中心和通信网络在功能定位、技术架构、应用场景等方面存在显著区别,以下是详细对比: 一、功能定位 数据中心 核心功能:作为存储、处理和管理海量数据
    的头像 发表于 06-12 09:57 661次阅读
    <b class='flag-5'>数据中心</b>和通信<b class='flag-5'>网络</b>有什么区别

    小型数据中心晶振选型关键参数全解

    小型数据中心的定义与应用 小型数据中心通常是为中小型企业、边缘计算、物联网(IoT)设备及其他特定业务需求提供计算、存储和网络服务的设施。与大型数据中心相比,小型
    发表于 06-11 13:37

    华为面向中东中亚地区发布全新星河AI数据中心网络

    联接、AI网元三层网络架构,为企业构建智联满载算力,业务永续护航的数据中心网络,助力中东中亚地区网络基础设施升级与业务创新。
    的头像 发表于 05-21 15:49 678次阅读

    破局智算瓶颈:400G光模块如何重构AI时代的网络神经脉络

    随着5G、AI和云计算技术的爆发式增长,400G光模块作为新一代高速光通信的核心组件,正在重构数据中心网络架构。本文从技术标准、封装形态、传输性能等维度全面解析400G光模块的突破性创新,重点阐述其
    的头像 发表于 05-12 09:58 713次阅读

    适用于数据中心和AI时代的800G网络

    和性能隔离能力,以保障不同用户任务互不干扰。 分布式AI计算与网络架构设计 分布式计算已成为AI训练的主流方式,通过将工作负载分配到多个GPU节点并行处理,以加速模型训练。这对数据中心
    发表于 03-25 17:35

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 851次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    高速线缆支持热插拔功能,具有低功耗和小弯曲半径,便于灵活布线,可实现高稳定性、低成本、节省空间和高散热等优势,非常适合数据中心布线需求。这些高速线缆能够与交换机、路由器和服务器无缝集成,确保网络
    发表于 03-24 14:20

    华为发布新一代站点能源架构及AI数据中心建设理念

    西班牙巴塞罗那2025年3月13日 /美通社/ -- 在MWC25巴塞罗那期间举办的产品与解决方案发布会上,华为数据中心能源及关键供电产品线总裁何波发布新一代站点能源架构"Single
    的头像 发表于 03-13 15:38 635次阅读
    华为发布新一代站点能源<b class='flag-5'>架构</b>及AI<b class='flag-5'>数据中心</b>建设理念