还未设置个性签名
成为VIP会员 享9项特权: 开通会员

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

使用NetQ实现全网可观察性排除网络故障

星星科技指导员 来源:NVIDIA 作者:Michael Kashin 2022-04-17 10:25 次阅读

EVPN已成为现代数据中心架构的标准解决方案。对于终端用户来说,受益于基于BGP的控制平面所具有的稳定性,EVPN提供了扩展其广播域的灵活性。但这些增加的益处是以提高配置的复杂性为代价的。

当前所面对的不再是相对固定、简单,可以通过维护人员直观分析来发现错误的网络配置。真正的生产性EVPN配置可能包括多个深度嵌套结构,而且随网络中的租户数量成比例增长。

EVPN配置复杂性可以且必须通过适当的自动化解决方案予以解决,这可以减少人为出错的可能性,而NVIDIA Cumulus Linux正是解决该问题的合适解决方案。但仅有自动化还不够,错误仍然可以通过数据源引入系统,例如配置管理数据库(CMDB)的人为错误。

可观察性的重要性

这就是为什么对于任何具有合理复杂程度的基础设施,用户应该有办法来采集各类日志、指标,并且调试、输出、汇总、关联和处理这些信息,从而尝试推断系统的内部状态。实现这一点的能力通常被称为系统的“可观察性”,而且随着底层基础设施复杂性的增加,它正变得日益重要。在CNCF云原生环境 中,“可观察性和分析”部分不断增长的项目数量已证明了这一全行业趋势。对此,NVIDIA也持同样的观点。

poYBAGJberaAJ0rLAADZzd8xRh8409.png

图 1 数据中心演进

通过NetQ实现的全网可观察性

长期以来,整个网络的可观察性仅限于拓扑视图——有些图包括从物理链接到L2,L3接口再到控制平面协议等不同层次的细节。但这些代表高层次意图的图只有在有人维护时才能保证准确。它们永远无法反映每个设备中所包含的网络的实际状态。NetQ在设计上解决了这些问题并为整个网络的运行状态提供了一个统一的观察窗口。

一方面,NetQ从其远程代理处收集和汇总多项指标,这些代理可能运行在网络交换机、通用计算服务器等任何位置。这些指标包括但不限于:接口统计和利用率、LLDP、MAC、ARP/ND和IP路由表、BGP、MLAG和OSPF的控制面状态,以及用于帮助诊断任一数据平面丢包的故障快照(What Just Happened)事件。

另一方面,NetQ使用这些指标来推断网络的内部状态并作出针对协议的诊断。这些检查包括从简单的MTU和链路状态一致性到BGP和EVPN状态验证再到端到端连接性测试。

故障排除演示

在这篇文章中,将演示如何使用NetQ来排除一些使用以下拓扑结构的常见配置错误。叶节点被配置为MLAG对,并且该结构内部正在运行带有对称IRB的EVPN和基于PIM的BUM复制 。

pYYBAGJbereAEVLbAADJpTIgeMY040.png

图 2 NVIDIA 空气中的拓扑

环境设置

该测试拓扑结构可以在名为NVIDIA Air的云基础设施模拟平台上启动。如要了解更多信息,请参阅《NVIDIA Air用户指南》。

1、选择创建模拟、演示市场和使用NetQ的网络故障排除选项卡。

在接下来的部分中,将讨论各种故障排除情景,并展示NetQ如何帮助确定问题的来源。

情景1:服务器01无法与服务器02通信

第一个问题很简单:两台服务器都连接到同一对叶节点交换机上,因此需要检查的地方仅限于以下几个方面:

所有服务器链接的L1和Bond接口配置

peerlink的MLAG状态和配置

vlan 10和vlan 20的L3和VRR接口配置

通过NetQ,只需点击几下就可以完成所有这些检查。

1、在模拟页面,选择启动NetQ,输入用户名和密码

2、在工作台标题中,选择验证并创建一个新的MLAG验证。

poYBAGJberiAUYTRAACgjYzzLkI801.png

图 3 情景 1 结果

当验证完成后,NetQ发现双宿设备有四个错误。对于每一个出现错误的检查,用户都可以查看更详细的信息并了解NetQ认为的错误是什么。

pYYBAGJberiAP0UWAADV9rGGj0g820.png

图 4 场景# 1 详细信息

在本情景中,NetQ清楚地指向接口bond1的VLAN配置,现在可以通过登录和比较两台叶节点交换机上的配置来进行快速验证和纠正。

用户可按照实验指导来依次解决问题。

第二个情景涉及VXLAN EVPN结构上的VLAN内通信。这种故障的常用故障排除流程可能涉及以下步骤:

1、确认所有BGP会话都已建立,并且所有对等层的EVPN地址族都已启用。

2、确认所有四个叶节点交换机上的VLAN至VNI映射是一致的。

3、确保导出和导入所需的Type-2路由使用同一组路由目标。

4、检查BGP是否被配置为发布所有已配置的VNI。

必须在所有叶节点交换机上比较这些数值。下面将展示用NetQ检查上述信息有多么简单。

1、在主工作台标题选择选项卡并打开EVPN会话选项卡。

2、在全屏视图中打开此选项卡,查看所有会话屏幕(图5)。

情景2:服务器01无法与服务器04通信

poYBAGJbermAfnM5AAEx2HzVOIU629.png

图 5 场景# 2 详细信息

现在可以在屏幕上看到所有的相关值,这些值以表格的形式呈现并且可以进行排序及过滤以缩小搜索范围。在该情景中,很容易发现叶节点01/02和叶节点03/04之间Vlan10的VNI映射差异。

用户可按照实验指导依次解决问题。

情景3:服务器01无法与服务器05通信

最后一个情景涉及VXLAN EVPN的VLAN间对称路由。这次,需要验证的内容有所增加,包括以下额外步骤:

每个VRF的BGP配置和会话状态

EVPN 5型路由在叶节点交换机之间的传播

检查L3 VNI的配置是否一致以及每个MLAG对是否有唯一的Router MAC

L3 VNI到VRF在所有交换机上的映射

通过NetQ EVPN验证功能,所有这些假设都可以在几秒钟内得到验证。

1、在主工作台标题中选择验证并创建一个新的按需EVPN验证。几秒钟后,用户即可看到结果(图6)

poYBAGJberqAGQUBAAClzuIlf2s179.png

图 6 情景# 3 结果

通过点击VRF一致性警告,用户可以清楚地看到错误位置。解决问题的时间缩短到几秒钟,管理员现在可以继续纠正叶节点03/04上的VNI至VRF映射。

pYYBAGJberuARagmAACxAkqRBLI404.png

图 7 场景# 3 详细信息

请查看实验室指南,了解解决这个问题所需的具体指令。

总结

在这篇文章中,展示了NetQ根据管理设备采集的各种指标来分析和推断网络状态的能力。以上三个情景展示了如何利用NetQ的验证和协议专用选项卡将根本原因分析的时长从几分钟或几小时缩短到几秒钟。这些验证可以按需求运行,也可以定期运行,甚至可以在过去的数据上运行,这是因为所有日志都存储在一个时间序列数据库中。

NetQ的能力远远超出了这篇文章中所展示和讨论的内容,并且其功能还包含设备库存、软件生命周期管理、基于阈值的警报以及与第三方平台(如Slack、PagerDuty和Grafana)的集成。NetQ将继续扩展并增加更多的功能和第三方集成,在未来为用户创造更多价值。

关于作者

Michael Kashin 是 NVIDIA 网络组的解决方案架构师,专注于数据中心、自动化和可观测性。他对软件开发、网络和云本地技术有着浓厚的兴趣,并热衷于利用自己的知识和专长帮助客户解决业务问题。在 2021 年加入 NVIDIA 之前, Michael 曾为多家技术供应商工作,帮助他们的客户构建云并开发基础设施管理软件。

审核编辑:郭婷

  • NVIDIA
    +关注

    关注

    14

    文章

    2797

    浏览量

    95487
  • 服务器
    +关注

    关注

    10

    文章

    4777

    浏览量

    76627
  • 数据中心
    +关注

    关注

    10

    文章

    2720

    浏览量

    63857
收藏 人收藏

    评论

    相关推荐

    工业智能设备如何实现远程维护与调试?

    工业革命以来,生产技术得到突飞猛进的发展,丰富多样的工业设备迅速应用于自动化生产系统,大大促进经济的....
    的头像 wtbl物通博联 发表于 09-24 10:22 71次 阅读
    工业智能设备如何实现远程维护与调试?

    AI走向何方?我们在GTC 2022看到了这些趋势

    能被称作科技“春晚”的大会不多,GTC算是其中公认一个。不仅大量游戏爱好者为之吸引,更有更多观众奔着....
    的头像 脑极体 发表于 09-23 19:23 229次 阅读

    怎样去减少Confluent Cloud Kafka运营成本呢

    流式数据已成为企业构建和运营出色数据产品的必要条件,而 Apache Kafka 已成为实时流式传输....
    的头像 广州虹科电子科技有限公司 发表于 09-23 17:23 132次 阅读

    香港服务器出海访问的优势

    香港服务器在某种程度上来说,是国际网络枢纽中转站,国际网络带宽资源丰富,网络连通世界各地,在海外地区....
    发表于 09-23 17:08 19次 阅读

    关于cookie、互联网代码和CVE的故事

    curl 4.9 作为第一个带有 “cookie 引擎” 的版本,可以接收 HTTP cookie、....
    的头像 倩倩 发表于 09-23 15:22 37次 阅读

    金融行业服务器如何避免DDoS攻击?

    之前我们介绍过什么是ddos攻击、DDoS攻击的原理及防御。我们知道,DDoS攻击已经危及不同的行业....
    的头像 田鑫网络 发表于 09-23 15:15 27次 阅读

    泛目录SEO美国站群优化步骤解析

    泛目录SEO美国站群优化步骤解析
    的头像 h1654155970.6691 发表于 09-23 14:18 27次 阅读

    是德科技推出助力片上系统(SoC)制造商验证新一代电气接口技术

    2022年9月23日,是德科技公司(NYSE:KEYS)宣布,该公司全新推出的 224G 以太网测试....
    的头像 是德科技快讯 发表于 09-23 14:11 87次 阅读

    【服务器数据恢复】虚拟机文件丢失导致Hyper-V服务瘫痪的数据恢复

    存储设备中4块硬盘组成阵列存储虚拟机的数据文件,单块4T硬盘存储虚拟机数据文件备份。
    的头像 Frombyte 发表于 09-23 13:21 106次 阅读
    【服务器数据恢复】虚拟机文件丢失导致Hyper-V服务瘫痪的数据恢复

    如何过滤 TCP/IP 堆栈中的数据包

    防火墙是系统或网络中重要的安全的基本组件之一。防火墙是一台介于本地网络和外部网络之间的计算机,用于监....
    的头像 lhl545545 发表于 09-23 11:37 61次 阅读

    NVIDIA Isaac Sim机器人仿真平台上云

    新 Omniverse Cloud 平台上的 Isaac Sim 使虚拟机器人的测试和训练更容易实现....
    发表于 09-23 11:37 59次 阅读

    NVIDIA宣布推出第二代NVIDIA OVX,支持端口200G网络速率

    全新 NVIDIA OVX 系统旨在助力运用领先的 3D 软件来构建 3D 虚拟世界,并且支持在 N....
    发表于 09-23 11:36 70次 阅读

    NVIDIA助力DSD构建铁路网的数字孪生

    德国的国家基础设施管理者正在设计采用 AI 技术的数字孪生,以开发未来的铁路系统。
    的头像 NVIDIA英伟达企业解决方案 发表于 09-23 11:35 170次 阅读

    为什umqtt运行umqtt_ex_start后一会就死机了

    发表于 09-23 11:12 1879次 阅读

    国内大型储能招标超预期 储能市场爆发已至!

    电力市场化改革有望建立健全长期机制,为储能发展提供沃土。新型储能在电 力市场中的主体地位业已确立,在....
    发表于 09-23 10:59 103次 阅读

    Linux系统登录账户的安全设置方法

    安全是IT行业一个老生常谈的话题了,前段时间的“某某高校网络被攻击”事件中折射出了很多安全问题,处理....
    的头像 lhl545545 发表于 09-23 10:38 38次 阅读

    IPU正成为未来数据中心里起舞的精灵 面向微服务创新

    日耳曼神话中,有一种名叫戈兰林(Gremlin)的小精灵。传说这种精灵熟悉各种工具和机械,可以帮助能....
    的头像 脑极体 发表于 09-22 18:58 249次 阅读

    除了多IP,SEO站群服务器有什么其他不同

    除了多IP,SEO站群服务器有什么其他不同
    的头像 h1654155970.6691 发表于 09-22 16:36 119次 阅读

    恒讯科技介绍:美国国际线路服务器的数据中心

    美国国际线路服务器分布于多个城市,可以选择凤凰城/芝加哥/达拉斯/纽约机房,主要为国际线路,适合外贸....
    发表于 09-22 16:15 17次 阅读

    英伟达发布全新汽车芯片Thor 于2025年量产装车

      据消息,9月20日在英伟达2022年秋季GTC大会上,公司创始人黄仁勋发布中央计算芯片DRIVE....
    的头像 科技快讯 发表于 09-22 16:02 101次 阅读

    了解数据中心基础设施管理市场的一些主要趋势

    DCIM不再是管理IT的孤立团队和管理建筑设施系统(例如供暖、制冷和湿度控制)的其他团队,而是将所有....
    的头像 倩倩 发表于 09-22 15:26 58次 阅读

    媒体:美对中国电信基础设施渗透控制

      最近,有关部门公布了TAO对西北工业大学网络攻击的过程和细节。
    的头像 科技快讯 发表于 09-22 15:24 427次 阅读

    分享几个Linux服务器的优点

    Linux操作系统之所以如此流行,是因为它具备很多的优点,当然这些优点是对于特定人群来说的,不同的人....
    的头像 嵌入式微处理器 发表于 09-22 14:52 92次 阅读

    是德科技亮相2022欧洲光纤通讯展

    内容:5G、人工智能(AI)和物联网应用推动数据流量呈爆炸式增长,促使网络和数据中心产生了前所未见的....
    的头像 是德科技快讯 发表于 09-22 14:43 100次 阅读

    英伟达NVIDIA为何可以在高性能计算GPU中处于不败地位?

    英伟达 | GTC2022 | 高性能计算 NVIDIA | RTX4090 | 液冷服务器 在东数....
    的头像 GPU视觉识别 发表于 09-22 10:59 117次 阅读
    英伟达NVIDIA为何可以在高性能计算GPU中处于不败地位?

    NVIDIA Ada Lovelace架构的NVIDIA RTX 6000工作站GPU

    RTX 6000 专为神经图形和先进的虚拟世界模拟而设计,其具有 Ada 架构赋能的 AI 技术和可....
    的头像 丽台科技 发表于 09-22 10:48 235次 阅读

    NVIDIA第二代 NVIDIA OVX为全球用户带来更强大的性能

    技嘉科技、新华三、浪潮、联想、广达和超微将提供 OVX 系统;宝马集团和捷豹路虎将成为 OVX 系统....
    的头像 NVIDIA英伟达 发表于 09-22 10:46 86次 阅读

    NVIDIA即将推出首批基于开创性 NVIDIA Hopper 架构的产品和服务

    NVIDIA 于今日宣布 NVIDIA H100 Tensor Core GPU 全面投产,NVID....
    的头像 NVIDIA英伟达 发表于 09-22 10:45 144次 阅读

    NVIDIA推出首款软件加基础设施即服务产品

    NVIDIA 首个软件即服务(SaaS)产品包括 Omniverse Cloud Nucleus、D....
    的头像 NVIDIA英伟达 发表于 09-22 10:43 64次 阅读

    在云中执行ActiveDirectory迁移

    BinaryTree Power365 for ActiveDirectory具有高度适应性、自动化....
    的头像 倩倩 发表于 09-22 10:42 119次 阅读

    NVIDIA NeMo最新语言模型服务帮助开发者定制大规模语言模型

    NVIDIA NeMo 大型语言模型(LLM)服务帮助开发者定制大规模语言模型;NVIDIA Bio....
    发表于 09-22 10:42 55次 阅读

    NVIDIA为Terra云平台提供快速分析海量医疗数据所需的AI和加速工具

    NVIDIA 于今日宣布与麻省理工学院和哈佛大学旗下的博德研究所(The Broad Institu....
    的头像 NVIDIA英伟达 发表于 09-22 10:40 184次 阅读

    NVIDIA发布新一代GeForce RTX GPU

    GTC揭开序幕,黄仁勋发布了自然语言理解、元宇宙、游戏和AI技术的最新进展,并介绍了这些成果如何影响....
    的头像 NVIDIA英伟达 发表于 09-22 10:38 144次 阅读

    NVIDIA发布 GeForce RTX 40 系列 GPU

    NVIDIA 发布 GeForce RTX 40 系列 GPU,旨在为游戏玩家和创作者提供革命性性能....
    的头像 NVIDIA英伟达 发表于 09-22 10:38 82次 阅读

    NVIDIA 发布AI 驱动的性能倍增器NVIDIA DLSS 3

    NVIDIA 发布 NVIDIA DLSS 3--一款由 AI 驱动的性能倍增器,开启 NVIDIA....
    的头像 NVIDIA英伟达 发表于 09-22 10:36 93次 阅读

    Arm是否能为软件移植和验证提供硬件基础结构呢

    我希望为一个开源项目添加对Arm64 的支持,但我没有资源来设置自己的服务器类硬件基础结构。 ...
    发表于 09-22 10:33 1290次 阅读

    NVIDIA RTX 6000工作站GPU将为企业工作流带来性能提升

    RTX 6000 GPU 将为企业工作流带来 2-4 倍的性能提升;全球厂商将于第四季度开始发货。
    的头像 NVIDIA英伟达企业解决方案 发表于 09-22 10:06 113次 阅读

    关于提升 CPU 资源隔离的混部技术细节

    在数据中心服务器或者各种云集群(后续简称集群)的生产环境上,部署着很多日常的在线(LC, Laten....
    的头像 openEuler 发表于 09-22 10:04 55次 阅读

    NVIDIA携手合作伙伴提供AI赋能的、GPU加速的网络安全平台

    两家公司通过所提供的服务和 NVIDIA AI 加速网络安全平台,助力企业分析海量数据,更快查明威胁....
    的头像 NVIDIA英伟达企业解决方案 发表于 09-22 10:03 96次 阅读

    全新混合云NVIDIA应用服务于各种行业用例

    两家公司扩大合作范围,将帮助全球企业轻松构建和运行先进的 AI 与元宇宙服务,包括物联网边缘 AI、....
    的头像 NVIDIA英伟达企业解决方案 发表于 09-22 10:02 99次 阅读

    Nvidia发布最新的高级自动驾驶中央计算引擎Drive Thor

    Nvidia的Danny Shapiro(车载业务VP)表示,Thor将通过一个简化的集中式计算架构....
    的头像 倩倩 发表于 09-22 09:59 100次 阅读

    NVIDIA助力轻舟智航发布新一代车规级前装量产自动驾驶解决方案

    近日,世界前沿的无人驾驶通用解决方案公司轻舟智航(QCraft)宣布推出搭载 NVIDIA DRIV....
    发表于 09-22 09:58 59次 阅读

    NVIDIA助力小鹏汽车最新旗舰车型上市

    今日,小鹏汽车最新旗舰车型——超快充全智能 SUV G9 在中国正式上市并将于第四季度向用户交付。作....
    发表于 09-22 09:56 61次 阅读

    NVIDIA推出全新Jetson Orin Nano系统级模组

    NVIDIA 推出全新Jetson Orin Nano 系统级模组,扩充了NVIDIA Jetson....
    的头像 NVIDIA英伟达企业解决方案 发表于 09-22 09:54 101次 阅读

    NVIDIA IGX平台将推进制造、物流和医疗行业的人机协同

    NVIDIA 推出用于高精度边缘 AI 的NVIDIA IGX 平台,为制造、物流和医疗等行业带来了....
    的头像 NVIDIA英伟达企业解决方案 发表于 09-22 09:52 85次 阅读

    【服务器数据恢复】Unix环境zfs文件系统下重组RAID5

    RAID起始扇区是指RAID内的数据在每块物理盘(创建RAID所用的每块独立的物理硬盘)上的起始位置....
    的头像 Frombyte 发表于 09-21 17:23 149次 阅读
    【服务器数据恢复】Unix环境zfs文件系统下重组RAID5

    华为发布全无线智能园区网络架构白皮书

    2022年9月20日,华为全联接大会2022泰国曼谷站期间,在“智能云网,引领数字化创新”峰会上,华....
    的头像 华为数据通信 发表于 09-21 16:37 454次 阅读

    恒讯科技分析:怎么降低服务器被黑的几率呢?

    在这个互联网时代,服务器被黑是经常性的问题。今天,下面小编给大家分析一下怎么降低服务器被黑的几率呢?....
    的头像 深圳市恒讯科技有限公司 发表于 09-21 16:19 115次 阅读

    RISC-V即将在数据中心上发力?

    近期英特尔在RISC-V上动作频繁,无论是加入RISC-V国际基金会,为RISC-V提供设计和制造平....
    的头像 电子发烧友网 发表于 09-21 15:25 95次 阅读

    NVIDIA 推出大型语言模型云服务以推进 AI 和数字生物学的发展

    NVIDIA NeMo 大型语言模型(LLM)服务帮助开发者定制大规模语言模型;NVIDIA Bio....
    发表于 09-21 15:24 126次 阅读
    NVIDIA 推出大型语言模型云服务以推进 AI 和数字生物学的发展

    服务器稳定性测试方法

    服务器稳定性测试方法 下面就来详细的分享几种常见的测试手法: 1、不同功能操作测试 针对香港服务器,一般的用途无非都是用在...
    发表于 09-20 09:56 527次 阅读

    实用的HTTP/3协议部署选项相关资料分享

    1、实用的 HTTP/3 部署选项   页面和资源的更改   让我们从一些好消息开始:如果您已经使用 HTTP/2,那么在迁移到...
    发表于 09-19 16:53 903次 阅读

    ARM服务器准备如何解决服务端渲染的问题

    针对云手机、视频流云游戏行业,ARM服务器准备如何解决服务端渲染的问题? 目前的状况了解,PCIE显卡对安卓游戏的支持还...
    发表于 09-13 14:58 1710次 阅读

    connect连接一个不可用的目标服务器能不能改成非阻塞的呢

    connect连接一个不可用的目标服务器,阻塞近20秒。能不能改成非阻塞的呢? 我在前面加了配置非阻塞之后,去连正常能通的服务器也...
    发表于 09-05 14:50 2372次 阅读

    CH579连接服务器超时怎么解决?

    CH579连接服务器错误,读取全局中断返回0X10,#define CH57xNET_ERR_BUSY         ...
    发表于 09-02 06:20 54次 阅读

    如果服务器也想用到类似TEE的安全环境可以吗

    TEE主要在移动端,ARM用?如果服务器也想用到类似TEE的安全环境,可以吗?当前看不到支持TEE的服务器。 ...
    发表于 08-30 15:21 1579次 阅读

    通过TCP连上服务器但EC20发不出数据怎么办

    通过TCP连上服务器了,能收到数据,但是发不出数据,发送AT+QISEND指令总是ERROR ...
    发表于 08-29 11:43 1098次 阅读

    connect设置超时的方法

    在使用TCP的connect连接服务器时,在默认情况下系统使用的是阻塞式socket,如果服务器当前不可用,则connect会等待知道超时时...
    发表于 08-25 15:03 773次 阅读