0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里自研交换机实现多平面可扩展的新一代网络架构

牵手一起梦 来源:中国IDC圈 作者:佚名 2020-09-16 15:51 次阅读

开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日网络论坛上,阿里巴巴的高级技术专家王永灿先生就阿里近年来自研交换机的实践和探索进行了分享。

阿里巴巴高级技术专家王永灿

王永灿:随着阿里云业务的快速发展,我们的数据中心网络已经发展成为一个超大规模的网络,传统的商业设备在运维的稳定性和效率都是带来了很大的挑战,网络芯片在摩尔定律下仍然保持高速狂奔,基本上每两年芯片带宽就会翻一倍,所以阿里数据中心网络已经全面走向自研。

我们的自研交换机是盒式的单芯片交换机,整个数据中心实现了整集群全自研,包括自研光模块、自研DAC。基于自研交换机,实现了多平面可扩展的新一代网络架构,实现单集群可部署超过10万台服务器

自研交换机和商业设备到底有什么区别?商业设备面对的是多客户、多场景,所以特点是功能非常全,什么场景都可以用,数据中心对功能的要求不多,但对稳定性和运维的效率有非常大的挑战,自研交换机正是这个场景的专用设备。

首先我们在功能上要求极简,因为简单所以稳定,而实际上要做到真正的简单比复杂更难。另一方面,在特定场景上,需要做到极致,来提升运维效率。举个汽车换轮的例子,家用汽车有一个备胎,更换一般需要几个小时。但是在一级方程式中,赛车需要在几秒内完成4个轮胎的更换,因此需要人和车的完美结合,整体能力的输出,自研交换机也一样,通过自研将架构、管控、运维和研发结合起来,形成一个内部闭环的、迭代的体系,来提升整体网络的能力。下面,在几个代表性的场景上,进行详细的介绍。

首先大规模网络稳定性的最重要一环是监控。而商业设备是一个黑盒,因此主要以外部流量相关的监控为主,而自研交换机是白盒,是系统内部的代码级监控。其次,我们把运维经验与设备系统结合,设备可以主动告警、自修复。另外,在大规模网络里,如果告警有噪声,那么这个监控几乎是不可用的,因此自研机在本地进行数据分析,消除噪声,精确告警。最后,在监控数据的颗粒度上,从分钟级提升到秒级,可以看到任何一秒的流量数据,使监控进入了秒级时代。因此虽然自研是新系统,新芯片,新硬件,但是比商业机更稳定,至今保持着0故障的记录。

在数据中心网络中,设备的硬件故障占比高,而硬件故障有两个痛点:第一是硬件宕机故障,处理不可控,第二是,根因定位困难,重复发生。因此我们在自研上引入了服务器的BMC,并自主研发了BMC的OS – AliBMC。通过AliBMC,对硬件部件级监控,对CPU和转发芯片定制化监控,使硬件故障可分析、可定位。另外通过标准化底层接口,与硬件解耦,从差异化的设备,变为统一的软件系统,完成了运维设备到运维软件的转变。最后我们将AliBMC向ODM进行了开源,来促进白盒的生态发展。

随着自研的规模部署,设备链路也进入了百万级。而以往的链路排查,是人工排查,靠换靠试,几乎每天都需要花大量的人力、物力。链路排查的难点在于,涉及多器件,而且信号串联,互相干扰,一个器件有问题,多个器件状态异常,而且还与软件、配置、甚至机房环境、现场的人都相关,所以时间不可控,10天半月都很正常。因此我们在自研上,通过AliNOS将设备软硬件技术、光模块技术、运维经验深度融合,研发了链路自动诊断系统 -- 明眸,通过明眸,对链路实时监控、自动分析原因,建立数据大盘,实现百万级链路的智能化运维。

最后,问题修复、新功能发布,都必须依赖设备的升级,而大规模网络升级对效率和业务无损有极高的要求,因此我们在自研上从冷升级全面转向了热升级。AliNOS是一个开放的标准Linux,所有模块都以Docker的方式部署,各个容器间通过DB通信。通过DB进行数据的存储、恢复,实现了基于Docker的热升级,做到升级对业务无损、0感知。另外通过AliNOS屏蔽了硬件差异,所有硬件型号一个版本、一个补丁,1万台和1台无差别升级,简化了运维复杂度,提升了运维效率

最后总结一下,通过自研交换机,我们把设备、运维、架构和管控进行结合,形成了一个内部的闭环,所以在很多场景都要做更多的智能化运维,以及针对高性能的新技术进行创新。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 交换机
    +关注

    关注

    19

    文章

    2441

    浏览量

    95713
  • 数据中心
    +关注

    关注

    15

    文章

    4192

    浏览量

    70207
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1571

    浏览量

    46451
收藏 人收藏

    评论

    相关推荐

    交换机的作用与功能 交换机的基本配置

    交换机(Switch)是计算机网络中常见的一种数据通信设备,它用于在局域网(LAN)内的不同设备之间进行数据的转发和交换交换机通过学习和转发数据帧的方式来
    的头像 发表于 02-04 09:17 1236次阅读

    汇聚交换机和核心交换机区别

    汇聚交换机和核心交换机网络中常见的两种交换机设备,在网络中扮演着不同的角色和功能。虽然它们的主要目标是提供高速、高效的数据
    的头像 发表于 01-22 14:32 1108次阅读

    万兆铜缆交换机与万兆光纤交换机有什么区别?该如何选择?

    几个因素:网络需求、预算、扩展性和未来趋势。 首先,万兆铜缆交换机和万兆光纤交换机的最大区别在于它们所使用的传输介质不同。万兆铜缆交换机利用
    的头像 发表于 12-27 15:02 300次阅读

    管理型交换机 vs. 非管理型交换机

    在构建复杂的网络中,选择适当的交换机类型很重要。管理型交换机作为智能网络的掌舵者,与非管理型交换机相比,为
    的头像 发表于 12-25 17:59 675次阅读
    管理型<b class='flag-5'>交换机</b> vs. 非管理型<b class='flag-5'>交换机</b>

    核心交换机和普通交换机的区别?

    的区别,并探讨它们在网络架构中的不同作用。 首先,核心交换机网络中的主干设备,负责连接整个网络的各个子网和不同的
    的头像 发表于 12-07 14:39 726次阅读

    什么是核心交换机?与普通交换机有何区别?

    什么是核心交换机?与普通交换机有何区别? 核心交换机是一个网络中的重要组成部分,用于处理大量数据流量,连接多个子网和LAN(局域网),并确保顺畅的数据传输和通信。它通常位于
    的头像 发表于 12-07 10:46 1187次阅读

    以太网交换机堆叠和级联的6个区别

    以太网交换机堆叠和级联的6个区别 以太网交换机堆叠和级联是网络架构中的两种常见方法,用于扩展网络
    的头像 发表于 11-28 14:50 704次阅读

    什么是网管型交换机?怎么选择网管型和非网管型交换机

    什么是非网管型交换机?什么是网管型交换机?怎么选择网管型和非网管型交换机? 非网管型交换机是一种简单的交换设备,其功能和管理能力相对较弱。它
    的头像 发表于 11-09 09:24 888次阅读

    到底什么是交换机交换机接口大揭秘

    交换机是一种用于电(光)信号转发的网络设备,可以为接入交换机的任意两个网络节点提供独享的电信号通路。
    的头像 发表于 11-06 09:33 646次阅读

    非网管型交换机和网管交换机有什么区别

    在当今的交换机中,交换机主要可分为非网管交换机 和 网管交换机。那么非网管交换机和网管交换机有什
    的头像 发表于 07-10 17:08 1651次阅读
    非网管型<b class='flag-5'>交换机</b>和网管<b class='flag-5'>交换机</b>有什么区别

    交换机的发展

    从目前以太网交换机市场的总体情况来看,百兆交换机已成为市场主流,千兆交换机市场份额不断加大,而十兆交换机已基本退出了市场。今年以太网交换机
    的头像 发表于 07-07 11:54 493次阅读

    全国产交换机、军用交换机与普通交换机到底有啥区别?

    性能上是没有多大区别的。从网络层级上看,有二层交换机,当然也有三层交换机......交换机层级主要是为了满足不同用户的各种需求。 全国产交换机
    的头像 发表于 07-07 11:08 1295次阅读
    全国产<b class='flag-5'>交换机</b>、军用<b class='flag-5'>交换机</b>与普通<b class='flag-5'>交换机</b>到底有啥区别?

    千兆交换机和百兆交换机应该如何选择?

    类型的交换机取决于具体的需求和预算限制,以及网络所需的带宽和性能要求。下面将详细介绍百兆交换机和千兆交换机的区别,以及万兆交换机的应用。
    的头像 发表于 06-18 10:26 2419次阅读
    千兆<b class='flag-5'>交换机</b>和百兆<b class='flag-5'>交换机</b>应该如何选择?

    二层交换机和三层交换机的区别

    计算机网络中的交换机是用于在局域网(LAN)中转发数据包的重要设备。其中,二层交换机和三层交换机是两种常见的交换机类型。本文将详细介绍二层
    的头像 发表于 06-12 14:09 6621次阅读
    二层<b class='flag-5'>交换机</b>和三层<b class='flag-5'>交换机</b>的区别

    浅析工业交换机与普通交换机的区别-科兰

    网络发达的今天,交换机被广泛使用,交换机可以实现一个网络多台电脑公用,提高办公效率,但是交换机
    的头像 发表于 06-12 10:04 729次阅读