0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里自研交换机实现多平面可扩展的新一代网络架构

牵手一起梦 来源:中国IDC圈 作者:佚名 2020-09-16 15:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日网络分论坛上,阿里巴巴的高级技术专家王永灿先生就阿里近年来自研交换机的实践和探索进行了分享。

阿里巴巴高级技术专家王永灿

王永灿:随着阿里云业务的快速发展,我们的数据中心网络已经发展成为一个超大规模的网络,传统的商业设备在运维的稳定性和效率都是带来了很大的挑战,网络芯片在摩尔定律下仍然保持高速狂奔,基本上每两年芯片带宽就会翻一倍,所以阿里数据中心网络已经全面走向自研。

我们的自研交换机是盒式的单芯片交换机,整个数据中心实现了整集群全自研,包括自研光模块、自研DAC。基于自研交换机,实现了多平面可扩展的新一代网络架构,实现单集群可部署超过10万台服务器

自研交换机和商业设备到底有什么区别?商业设备面对的是多客户、多场景,所以特点是功能非常全,什么场景都可以用,数据中心对功能的要求不多,但对稳定性和运维的效率有非常大的挑战,自研交换机正是这个场景的专用设备。

首先我们在功能上要求极简,因为简单所以稳定,而实际上要做到真正的简单比复杂更难。另一方面,在特定场景上,需要做到极致,来提升运维效率。举个汽车换轮的例子,家用汽车有一个备胎,更换一般需要几个小时。但是在一级方程式中,赛车需要在几秒内完成4个轮胎的更换,因此需要人和车的完美结合,整体能力的输出,自研交换机也一样,通过自研将架构、管控、运维和研发结合起来,形成一个内部闭环的、迭代的体系,来提升整体网络的能力。下面,在几个代表性的场景上,进行详细的介绍。

首先大规模网络稳定性的最重要一环是监控。而商业设备是一个黑盒,因此主要以外部流量相关的监控为主,而自研交换机是白盒,是系统内部的代码级监控。其次,我们把运维经验与设备系统结合,设备可以主动告警、自修复。另外,在大规模网络里,如果告警有噪声,那么这个监控几乎是不可用的,因此自研机在本地进行数据分析,消除噪声,精确告警。最后,在监控数据的颗粒度上,从分钟级提升到秒级,可以看到任何一秒的流量数据,使监控进入了秒级时代。因此虽然自研是新系统,新芯片,新硬件,但是比商业机更稳定,至今保持着0故障的记录。

在数据中心网络中,设备的硬件故障占比高,而硬件故障有两个痛点:第一是硬件宕机故障,处理不可控,第二是,根因定位困难,重复发生。因此我们在自研上引入了服务器的BMC,并自主研发了BMC的OS – AliBMC。通过AliBMC,对硬件部件级监控,对CPU和转发芯片定制化监控,使硬件故障可分析、可定位。另外通过标准化底层接口,与硬件解耦,从差异化的设备,变为统一的软件系统,完成了运维设备到运维软件的转变。最后我们将AliBMC向ODM进行了开源,来促进白盒的生态发展。

随着自研的规模部署,设备链路也进入了百万级。而以往的链路排查,是人工排查,靠换靠试,几乎每天都需要花大量的人力、物力。链路排查的难点在于,涉及多器件,而且信号串联,互相干扰,一个器件有问题,多个器件状态异常,而且还与软件、配置、甚至机房环境、现场的人都相关,所以时间不可控,10天半月都很正常。因此我们在自研上,通过AliNOS将设备软硬件技术、光模块技术、运维经验深度融合,研发了链路自动诊断系统 -- 明眸,通过明眸,对链路实时监控、自动分析原因,建立数据大盘,实现百万级链路的智能化运维。

最后,问题修复、新功能发布,都必须依赖设备的升级,而大规模网络升级对效率和业务无损有极高的要求,因此我们在自研上从冷升级全面转向了热升级。AliNOS是一个开放的标准Linux,所有模块都以Docker的方式部署,各个容器间通过DB通信。通过DB进行数据的存储、恢复,实现了基于Docker的热升级,做到升级对业务无损、0感知。另外通过AliNOS屏蔽了硬件差异,所有硬件型号一个版本、一个补丁,1万台和1台无差别升级,简化了运维复杂度,提升了运维效率

最后总结一下,通过自研交换机,我们把设备、运维、架构和管控进行结合,形成了一个内部的闭环,所以在很多场景都要做更多的智能化运维,以及针对高性能的新技术进行创新。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 交换机
    +关注

    关注

    23

    文章

    2953

    浏览量

    105031
  • 数据中心
    +关注

    关注

    18

    文章

    5868

    浏览量

    75276
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1654

    浏览量

    49406
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ETAS交换机软件赋能车载网络升级

    、安全性和扩展性提出了更高的要求。作为车载网络核心枢纽的以太网交换机,其运行效率与兼容性,直接决定了整车网络通信的性能上限。
    的头像 发表于 04-21 15:16 2414次阅读
    ETAS<b class='flag-5'>交换机</b>软件赋能车载<b class='flag-5'>网络</b>升级

    华为面向全球正式发布新一代SPE工业交换机

    MWC26 巴塞罗那期间,华为以“AI领航驱动油气行业智能化”为主题举办油气分论坛,并面向全球正式发布新一代SPE(Single Pair Ethernet,单对线以太网)工业交换机。该产品深度融合高可靠、智能化、易集成三大核心能力,旨在为流程工业的数智化转型构筑坚实的
    的头像 发表于 03-10 10:14 439次阅读

    光模块与交换机网络中的黄金搭档

    数字经济时代,数据传输效率与稳定性决定网络核心竞争力。光模块与交换机作为网络核心硬件,形成“唇齿相依、协同共生”的紧密关联——光模块是交换机突破传输限制的“延伸臂膀”,
    的头像 发表于 02-03 09:26 796次阅读

    Amphenol RaptorLink 64X50 SOSA以太网交换机:下一代网络解决方案

    Amphenol RaptorLink 64X50 SOSA以太网交换机:下一代网络解决方案 在当今高速发展的电子科技领域,网络设备的性能和可靠性至关重要。Amphenol的Rapto
    的头像 发表于 12-10 10:25 730次阅读

    工业交换机到底是什么?为什么工业环境非他不可?

    在工业自动化、智能交通、能源电力等关键领域,网络中断带来的损失可能是灾难性的。正是这种对可靠性的极致追求,催生了与普通商用交换机截然不同的产品——工业交换机。   工业交换机*多口
    的头像 发表于 11-21 17:25 889次阅读

    交换机在现代网络中的场景应用解析

    很多刚入门的电子爱好者,提起交换机总觉得是 "没技术含量" 的设备 —— 不就是把根网线分成根,让手机、电脑能上网吗?但只要你试过搭 NAS 私有云、组摄像头监控、甚至搞小型办公
    的头像 发表于 10-13 17:11 1644次阅读
    <b class='flag-5'>交换机</b>在现代<b class='flag-5'>网络</b>中的<b class='flag-5'>多</b>场景应用解析

    交换机:纳秒速率、低时延与高密度端口重构AI算力网络

    速率(光电交换机可达纳秒级,光机械交换机达毫秒级)、低时延架构(时延低于10微秒)、高能效比(功耗较InfiniBand或以太网方案降低65%以上)。这种技术特性使其在AI算力网络中展
    的头像 发表于 09-26 09:11 8163次阅读

    工业以太网交换机与商用交换机的技术差异与应用场景分析

    在当今的工业自动化和网络通信领域,交换机作为网络基础设施的核心组件,扮演着至关重要的角色。然而,市场上存在两种主要类型的交换机:工业交换机
    的头像 发表于 09-23 14:33 1166次阅读

    Microchip推出新一代千兆以太网交换机

    Inc.(微芯科技公司)今日宣布推出新一代LAN9645xF和LAN9645xS千兆以太网交换机,以多端口配置与功能选择,为客户提供最高可靠性与灵活性。
    的头像 发表于 09-19 17:19 1798次阅读

    管理型 vs 非管理型,工业网络如何选择以太网交换机

    ”,而是混合使用:核心层用管理型保障性能和安全,边缘层用非管理型降低成本。光路科技(Fiberroad)系列工业交换机,覆盖不同场
    的头像 发表于 08-25 15:37 1125次阅读
    管理型 vs 非管理型,工业<b class='flag-5'>网络</b>如何选择以太网<b class='flag-5'>交换机</b>?

    Is交换机组成的环形网络中,当位于主控节点的Ism网管交换机故障后,为什么环网中其他交换机不受影响?

    当位于主控节点的交换机故障断掉,环网中其他交换机是如何保持正常运行的?或者说什么原理让环网其他交换机不受影响?
    发表于 08-06 06:46

    普通交换机和车载交换机的区别有哪些?怎么选?

    你可能知道 交换机网络设备,用于在计算机网络中连接多个设备(如计算机、服务器、打印机等),并实现这些设备之间的数据
    的头像 发表于 07-09 15:53 908次阅读
    普通<b class='flag-5'>交换机</b>和车载<b class='flag-5'>交换机</b>的区别有哪些?怎么选?

    什么是工业级交换机?工业交换机作用有哪些?

    重中之重!!!     工业级交换机 是专为工业环境设计的 网络设备 ,主要作用是实现以太网设备的互联,扩大网络覆盖范围。与普通的商业交换机
    的头像 发表于 07-07 16:25 1825次阅读

    网络交换机在CCC认证范围吗

    网络交换机(NetworkSwitch)通常不在中国强制性产品认证(CCC)目录范围内,也就是说:般情况下,网络交换机不需要做CCC认证。
    的头像 发表于 06-30 14:12 2602次阅读
    <b class='flag-5'>网络</b><b class='flag-5'>交换机</b>在CCC认证范围吗