故障现象
某地ZXR10 5960X MC-LAG组网,软件版本V6.00.00.70B18,现场升级版本,先升级MC-LAG主设备。主设备重启时,MC-LAG备设备业务中断大约3分钟。
MC-LAG双机二层组网,smartgroup127作为peerlink端口,smartgroup128作为keepalive端口。现场网络配置如下:

故障分析
Keepalive 联动检测配置缺失,联动检测未生效导致备设备退避。
故障处理
1. 对业务中断到业务恢复过程告警进行分析。
MC-LAG主设备升级执行reload重启后,备设备11:25上报smartgroup127(peerlink)和smartgroup128(keepalive)物理端口及MC-LAG成员端口(业务)口物理down告警,同时1144设备上报了退避告警。
1137备设备退避状态发生变化,变为master主设备。
1140开始MC-LAG备设备成员口逐步up(注:主设备还未启动完成,peerlink和keepalive物理端口还未起来),此时业务恢复。
物理端口down 告警:

MC-LAG 退避告警:

退避状态变化,备设备变为master 主设备:

MC-LAG 成员端口up 告警:

2. 业务中断分析:
从告警初步判断主设备重启导致备设备退避,MC-LAG成员端口down,业务中断3分钟,然后MC-LAG成员端口up,业务恢复。主设备升级后出现以上现象存在疑点:
MC-LAG 双机,重启一台设备理论上不会影响另一台设备业务,现场却出现备设备业务中断,检查配置发现LACP全局下配置了keepalive联动检测,但SAMGR下并未做track 关联配置,相当于keepalive和物理端口联动检测未生效。当主设备重启时peerlink端口down,keepalive虽然物理端口down但keepalive协议检测未关联,认为还是up的(keepalive报文发送周期5 s,超时时间180 s),因此MC-LAG备设备才会出现退避及物理端口down的现象。
3. 补充增加SAMGR配置,验证再次重启主设备则不会再出现备设备退避及业务中断影响。

故障总结
1. MC-LAG升级前一定要检查主备设备配置,参考开局指导规范实施。
2. MC-LAG升级理论上先升级主或先升级备均不会影响另外一台,但实施时建议升级备设备,备设备升级完成后再调整MC-LAG优先级。主备角色重新选举后再次升级备设备,升级完成后调整优先级恢复配置,要求始终保持每次升级均为备设备,这样会更安全。
-
软件
+关注
关注
69文章
5300浏览量
90900 -
端口
+关注
关注
4文章
1102浏览量
33837
原文标题:MC-LAG主设备升级备设备业务中断的案例分析
文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
一文看懂WiFi模块主设备和从设备的区别!
6748用户SPI主设备往从设备发clock信号
如何查看注册的主设备号
设备OTA空中升级原理是什么
esp32蓝牙作为主设备时可以同时连接多少个从设备?
嵌入式应用中的USB主设备功能
嵌入式系统应用中的USB主设备功能分析
WiFi模块主设备和从设备的区别,一文看懂!
解读WiFi模块的主设备和从设备区别
主设备号--驱动模块与设备节点联系的纽带
SKYLAB主设备/从设备WiFi模块功能介绍
JUNIPER MAC LAG交换机技术的资料概述
嵌入式系统应用中USB主设备的功能分析
主设备WiFi模块,从设备WiFi模块功能介绍
交换机MC-LAG场景下单臂BFD无法UP问题

MC-LAG主设备升级备设备业务中断的案例分析
评论