0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过网络技术和NetDevOps优化数据中心网络

星星科技指导员 来源:NVIDIA 作者:Rama Darbha 2022-05-30 10:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

通过以下两种方式更新关键网络架构,可以优化数据中心:通过网络技术或 NetDevOps 中的操作效率。在本文中,我们将确定并评估可应用于网络体系结构以优化网络的技术。

我们将介绍五个更新,您应该考虑这些更新来改进数据中心:

用 VXLAN 替换第 2 层 VLAN

使用地址解析协议( ARP )抑制来减少广播传播。

将多机箱链路聚合组( MLAG )替换为 EVPN 多主。

使用等成本多路径( ECMP )路由和 UCMP 处理流量平衡。

通过自适应路由适应交通极化。

用 VXLAN 替换 VLAN

VXLAN 是一种覆盖技术,它使用封装允许第二层覆盖 VLAN 跨第三层网络。第 2 层网络有一些固有的缺点:

由于它们依赖生成树协议( STP ),冗余和多路径的能力受到生成树功能的限制。

它们只能在一个子网内运行,由于 MLAG ,冗余通常仅限于两个设备。

任何路径级冗余都需要链路聚合控制协议( LACP ),这是端口的标准冗余技术。

VXLAN 克服了这些缺陷,允许网络运营商在第 3 层路由结构上进行优化。仍然可以实现第 2 层覆盖,但由于依赖 EVPN 作为控制平面,因此不再需要生成树来进行控制平面收敛。

EVPN 通过 BGP 地址族交换 MAC 信息,而不是依赖广播泛洪和学习的低效性。此外, VXLAN 使用 24 位 ID ,可定义多达 1600 万个虚拟网络,而 VLAN 只有 12 位 ID ,仅限于 4094 个虚拟网络。

使用 ARP 抑制来减少广播传播

使用 VXLAN 的数据中心中的广播流量可以通过 ARP 抑制进一步优化。 ARP 抑制通过使用 EVPN 将 ARP 请求的响应直接从 ToR 虚拟隧道端点( VTEP )代理给客户端,帮助减少通信量。

在没有 ARP 抑制的情况下,所有 ARP 请求将在整个 VXLAN 结构中广播,并发送到每个具有网络 VNI 的 VTEP 。

启用 ARP 抑制后,通过 EVPN 学习到的 MAC 地址将传递到 ARP 控制平面。

充当 VTEP 的叶开关通过代理 ARP 应答直接响应 ARP 请求者。

由于 IP 到 MAC 映射已经使用 EVPN 类型 2 消息通过 VXLAN 控制平面进行通信,因此实现 ARP 抑制可以优化覆盖控制平面的更快分辨率。它还减少了结构中的广播流量,因为 ARP 抑制减少了向 VXLAN 基础设施中的每个 VTEP 发送 ARP 请求的需要。

用 EVPN 多归宿替换 MLAG

有时, VXLAN 环境中仍然需要 MLAG 来实现冗余主机连接。 EVPN 多宿是一个摆脱专用 MLAG 解决方案的机会,这些解决方案的扩展范围不超过一个设备冗余级别。

如前所述, VXLAN 有助于消除 MLAG 所需的背靠背叶到脊椎交换机连接的需要。 EVPN multihoming 更进一步,消除了服务器到叶连接中对 MLAG 的任何需要。

Multihoming 使用 EVPN 消息与主机连接进行通信,并使用主机连接信息动态构建与服务器的 L2 邻接。当 MLAG 需要 LAG ID 时,多宿使用以太网段 ID 。接口映射到与同一终端主机的逻辑连接类似的段。

此外,通过在交换机中使用协议标准形式的冗余,转向多主可以提高网络供应商的互操作性。由于多宿使用开放标准协议 BGP ,任何通过 RFC 规范实现多宿的供应商都可以成为以太网段的一部分。

ECMP 和 UCMP 处理流量平衡

ECMP 是大多数第 3 层路由协议中的标准功能,在这些协议中,在所有可用的下一跳上行链路中平衡等成本路由。第 2 层控制平面技术(如生成树)仅允许通过依赖外部技术(如 LACP )实现同等成本平衡。

ECMP 是第 3 层路由中的本机功能,它使您能够提高网络设备的效率。

在某些情况下, ECMP 可能会导致转发效率低下,特别是在执行完整的第 3 层解决方案时,在结构中的任何位置都使用点对点 L3 链路,甚至到主机。在这种情况下,您可能希望在链路数以外的指标上平衡流量。 UCMP 在这里很有用,因为它使用 BGP 标记创建跨跃点的流量分布,以便更好地与应用程序分布相匹配。

通过自适应路由适应交通极化

自适应路由是以太网交换采用的现有 InfiniBand 技术。自适应路由监控链路带宽、链路利用率、交换机缓冲区和 ECN/PFC,以了解特定路径上的流量何时变得拥塞,并从通过较不拥塞的路径动态重新路由中受益。

基于满足这些指标的阈值,交换机可以将流量从一个出口接口重定向到 ECMP 组中的另一个出口接口。这有助于平等地充分利用交换机上的所有链路,而不会造成两极分化的威胁,从而产生低效的流量。

自适应路由的目标是将任何手动调整干预从网络管理员手中解放出来,并让基础结构处理聚合流平衡的优化。

结论

在本文中,我们介绍了数据中心网络中可用的一些概念,这些概念可以通过关注协议栈和数据平面来帮助您优化网络基础设施。这些优化提供了更好的网络虚拟化,有助于减少基础设施上不必要的控制流量,并平衡现有第 1 层链路上的流量,以充分利用所有可用带宽。

关于作者

Rama Darbha 是 NVIDIA 网络组的解决方案架构主管,主要负责数据中心、 NetDevOps 和以太网交换。他热衷于帮助客户和合作伙伴通过开放的网络策略,充分利用他们的人工智能和计算工作负载。 RAMA 有一个活跃的 CCONP 2019 :: 19 和 CCIE × 22804 ,拥有杜克大学工程与管理硕士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    5923

    浏览量

    179490
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109062
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74634
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    CPO技术加速未来数据中心网络发展

    生成式 AI 的快速普及正在推动数据中心网络需求的指数级增长。光电一体化封装(CPO)技术以其高带宽密度、低功耗和可靠性优势,成为满足 AI 时代网络性能需求的关键方案。CPO
    的头像 发表于 09-23 14:24 1212次阅读

    解析DCQCN:RDMA在数据中心网络的关键拥塞控制协议

    DCQCN ( Data Center Quantized Congestion Notification),数据中心量化拥塞通知。它是一种专门为数据中心网络设计的端到端拥塞控制协议。其核心目的是在使用RDMA(RoCEv2)
    的头像 发表于 09-15 11:45 1491次阅读
    解析DCQCN:RDMA在<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>的关键拥塞控制协议

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI光模块的研发与量产先锋 睿海光电作为全球AI光模块的领先品牌,专注于为数据中心、超算中心及智算
    发表于 08-13 19:01

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区发布全新升级的星河AI数据中心
    的头像 发表于 08-11 10:42 1995次阅读

    华为数据中心自动驾驶网络通过EANTC欧洲高级网络测试中心L4级自智网络测评

    Networking Test Center,简称“EANTC”)发布华为数据中心自动驾驶网络的自智网络(Autonomous Network,简称“AN”)分级测评结果。此次测评结果显示,华为
    的头像 发表于 06-22 10:50 1701次阅读
    华为<b class='flag-5'>数据中心</b>自动驾驶<b class='flag-5'>网络</b><b class='flag-5'>通过</b>EANTC欧洲高级<b class='flag-5'>网络</b>测试<b class='flag-5'>中心</b>L4级自智<b class='flag-5'>网络</b>测评

    数据中心和通信网络有什么区别

    数据中心和通信网络在功能定位、技术架构、应用场景等方面存在显著区别,以下是详细对比: 一、功能定位 数据中心 核心功能:作为存储、处理和管理海量数据
    的头像 发表于 06-12 09:57 653次阅读
    <b class='flag-5'>数据中心</b>和通信<b class='flag-5'>网络</b>有什么区别

    小型数据中心晶振选型关键参数全解

    相位抖动等技术指标,还需要根据实际应用的功耗、温度稳定性和其他环境因素来做出最合适的选择。 通过合理布置PCB线路和优化时钟信号的传输路径,可以进一步提升时钟同步的精度和可靠性,确保数据中心
    发表于 06-11 13:37

    华为面向亚太地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025亚太站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向亚太地区发布全新升级的星河AI数据中心
    的头像 发表于 06-11 11:11 1073次阅读

    华为面向中东中亚地区发布全新星河AI数据中心网络

    近日,在华为数据通信创新峰会2025中东中亚站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向中东中亚地区发布全新升级的星河AI数据中心
    的头像 发表于 05-21 15:49 676次阅读

    华为荣获数据中心自智网络基础能力解决方案检测证书

    2025年云网智联大会首日,中国信息通信研究院(简称“信通院”)向华为技术有限公司(以下简称“华为”)等首批获得《数据中心自智网络基础能力解决方案检测证书》的企业正式颁发证书。此项认证的获得充分验证了华为等公司在
    的头像 发表于 04-25 16:00 661次阅读

    是德科技推出AI数据中心构建器以验证和优化网络架构和主机设计

    : KEYS )推出Keysight AI (KAI)数据中心构建器,这是一款先进的软件套件,通过模拟真实工作负载来评估新算法、组件和协议对AI训练性能的影响。KAI数据中心构建器的工作负载模拟功能将大型语言模型(LLM)和其他
    的头像 发表于 04-10 08:50 496次阅读

    适用于数据中心和AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络
    发表于 03-25 17:35

    华为携手中控技术打造全国数据中心网络创新示范项目

    华为中国合作伙伴大会2025期间,华为与中控技术股份有限公司(以下简称“中控技术”)联合发布星河AI数据中心网络优秀实践样板点。此次合作旨在打造全国
    的头像 发表于 03-24 14:51 796次阅读

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 849次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    一种经济高效的方式,实现更大的带宽传输。 800G有源光缆 800G有源光缆通过增加带宽、降低延迟并减少功耗来优化性能,非常适合去中心数据中心和云环境。此外,VCSEL与P
    发表于 03-24 14:20