什么是 VRRP?
VRRP (Virtual Router Redundancy Protocol,虚拟路由器冗余协议) 是一种容错协议,主要用于解决局域网中默认网关的单点故障问题。
它通过将多台物理路由器(或交换机)组合成一个“虚拟路由器”,对外提供一个虚拟 IP (VIP)。对于终端设备(如服务器、PC)来说,它们只需要将网关指向这个虚拟 IP,而不必关心背后具体是哪台物理设备在工作。
VRRP核心工作机制

图1:VRRP通过多个物理设备创建虚拟网关,实现透明故障切换
角色划分:主备状态通过优先级竞选。
Master (主):负责转发数据包,并定期发送 VRRP 通告报文。
Backup (备):监听 Master 的报文。如果超时未收到,则认为 Master 故障,启动切换逻辑。
虚拟 MAC 地址:为了防止切换时终端 ARP 表项失效,VRRP 使用固定的虚拟 MAC 地址。
VRRP 的需求背景
在传统的网络架构中,为了实现跨网段通信,主机必须配置默认网关。单点故障 (Single Point of Failure),如果网络中只有一个出口路由器:
1. 硬件损坏:路由器电源、主板故障导致全网中断。
2. 链路故障:上行链路断开,虽然设备没坏,但流量无法发出。
3. 维护升级:对设备进行系统升级或配置调整时,必须停机,影响业务连续性。
VRRP 的出现,使得网络具备了“透明切换”的能力:即便主设备宕机,备份设备也能在秒级(甚至毫秒级)内接管业务,用户侧几乎感知不到网络中断。
智算中心(Intelligent Computing Center)由于承载了大量的 AI 训练和推理任务,对网络可用性的要求远高于传统数据中心。
业务网关的高可用
在智算中心,GPU 服务器通常集群化部署。VRRP 常部署在 汇聚层或核心层交换机 上。成百上千台计算节点(如 H100/H800 服务器)的业务平面网关需要保持 24/7 在线。避免因单台核心交换机故障导致整个计算集群与管理平台失联。
与堆叠 (Stacking/MC-LAG) 的配合
在现代智算中心,纯粹的 VRRP 使用正在减少,更多是与 MC-LAG (跨设备链路聚合)技术结合。
VRRP + MC-LAG:可以实现真正的“双活”转发。两台物理交换机通过逻辑虚拟化,既能互为备份,又能同时转发流量,极大提升了带宽利用率(VRRP 默认情况下只有 Master 转发流量,Backup 处于备份闲置状态)。
工作原理:
在传统 VRRP 中,只有 Master 转发流量,Backup 是闲着的。但在 VRRP + MC-LAG 环境下,情况发生了质变,实现了真正的“全员加速”:
1、网关同步:两台交换机通过 MC-LAG 的 Peer-link 同步状态。虽然 VRRP 协议上仍有 Master 和 Backup 之分,但两台设备都会把虚拟网关的 MAC 地址写进自己的硬件转发逻辑里。
2、本地转发(关键点):
当下游服务器发送数据包到虚拟网关时,流量由于 MC-LAG 的负载均衡,可能落到交换机 A,也可能落到交换机 B。
即使流量落到了 Backup 交换机上,由于它知道 MC-LAG 伙伴就是 Master,且它手里有同样的网关信息,它不会把包丢给 Master,而是直接由自己代劳,把包转发出去。
故障快速联动 (BFD for VRRP)
AI 训练对网络抖动极其敏感。VRRP 配合 BFD (双向转发检测) 技术,可以将故障感知时间从秒级压缩到 10ms-50ms。
应用:当上行链路或对端端口出现微小物理损伤时,BFD 快速通知 VRRP 切换,防止 AI 训练任务(Checkpoints 写入等)因网络超时而失败。
性能突破:从“秒级”到“毫秒级”
在现代的智算中心(AIDC)或金融交易网络中,1 秒的中断可能导致成千上万个计算任务失败或巨额损失。VRRP有V2和V3两个主要版本,核心动力是为了拥抱IPv6时代以及提高故障切换的速度。
从V2升级到V3并不是简单的“小修小补”而是,协议层面的重大进化:
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}
| 特性 | VRRP V2 (RFC 3768) | VRRP V3 (RFC 5798) |
| 支持的协议 | 仅限 IPv4 | 同时支持 IPv4 和 IPv6 |
| 通告时间精度 | 以“秒”为单位 | 以“厘秒”为单位(1 厘秒 = 0.01 秒) |
| 认证机制 | 支持明文/MD5 认证(已被证明不安全) | 取消了认证(依靠更安全的 IPsec 或上层防护) |
| 多播地址 | 224.0.0.18 | IPv4: 224.0.0.18 / IPv6: FF02::12 |
VRRP V2:V2 的通告间隔(Advertisement Interval)单位是秒。默认是 1 秒,故障感知的理论极限通常在 3 秒以上。
VRRP V3:V3 将时间单位改为了厘秒(Centiseconds,1/100秒)。
这意味着你可以将间隔设置为 10 厘秒(即 100ms),故障切换可以在 300ms 左右完成。这种质的提升,是 V3 诞生的重要性能驱动力。
VRRP 是网络高可用性的“基石”。在智算中心时代,虽然技术架构在向 Spine-Leaf 扁平化和三层路由到边缘演进,但 VRRP 及其衍生技术依然在管理网、带外网以及非全路由环境中发挥着不可替代的作用。
审核编辑 黄宇
-
网关
+关注
关注
9文章
6930浏览量
56544 -
VRRP
+关注
关注
0文章
13浏览量
6121
发布评论请先 登录
VRRP 只能主备闲置?如何配合 MC-LAG 实现网关的“双活转发”?
LoRa基站与网关概念
多路UART数据转发芯片 支持1主4从UART接口 UART扩展芯片
MC-LAG主设备升级备设备业务中断的案例分析
揭秘双活网关的工作原理
Profinet从转Modbus(TCP)主总线协议转换网关
CentOS 7下MySQL 8双主热备高可用架构全解
双核工业网关和单核工业网关差别大吗
EtherCAT主站转Profinet网关接汇川伺服实现速度控制功能
单核CPU网关和双核CPU网关有什么区别
实现ModbusTCP转Profinet网关协议转换功能的网关设备
工业智能网关实现IEC104转发到能源管理平台
ProfibusDP主站转ModbusRTU网关快速配置案例
ABB电机保护单元通过Profibus DP主站转Modbus TCP网关实现上位机通讯
VRRP 只能主备闲置?如何配合 MC-LAG 实现网关的“双活转发”?
评论