0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NetQ实现全网可观察性排除网络故障

星星科技指导员 来源:NVIDIA 作者:Michael Kashin 2022-04-17 10:25 次阅读

EVPN已成为现代数据中心架构的标准解决方案。对于终端用户来说,受益于基于BGP的控制平面所具有的稳定性,EVPN提供了扩展其广播域的灵活性。但这些增加的益处是以提高配置的复杂性为代价的。

当前所面对的不再是相对固定、简单,可以通过维护人员直观分析来发现错误的网络配置。真正的生产性EVPN配置可能包括多个深度嵌套结构,而且随网络中的租户数量成比例增长。

EVPN配置复杂性可以且必须通过适当的自动化解决方案予以解决,这可以减少人为出错的可能性,而NVIDIA Cumulus Linux正是解决该问题的合适解决方案。但仅有自动化还不够,错误仍然可以通过数据源引入系统,例如配置管理数据库(CMDB)的人为错误。

可观察性的重要性

这就是为什么对于任何具有合理复杂程度的基础设施,用户应该有办法来采集各类日志、指标,并且调试、输出、汇总、关联和处理这些信息,从而尝试推断系统的内部状态。实现这一点的能力通常被称为系统的“可观察性”,而且随着底层基础设施复杂性的增加,它正变得日益重要。在CNCF云原生环境 中,“可观察性和分析”部分不断增长的项目数量已证明了这一全行业趋势。对此,NVIDIA也持同样的观点。

poYBAGJberaAJ0rLAADZzd8xRh8409.png

图 1 数据中心演进

通过NetQ实现的全网可观察性

长期以来,整个网络的可观察性仅限于拓扑视图——有些图包括从物理链接到L2,L3接口再到控制平面协议等不同层次的细节。但这些代表高层次意图的图只有在有人维护时才能保证准确。它们永远无法反映每个设备中所包含的网络的实际状态。NetQ在设计上解决了这些问题并为整个网络的运行状态提供了一个统一的观察窗口。

一方面,NetQ从其远程代理处收集和汇总多项指标,这些代理可能运行在网络交换机、通用计算服务器等任何位置。这些指标包括但不限于:接口统计和利用率、LLDP、MAC、ARP/ND和IP路由表、BGP、MLAG和OSPF的控制面状态,以及用于帮助诊断任一数据平面丢包的故障快照(What Just Happened)事件。

另一方面,NetQ使用这些指标来推断网络的内部状态并作出针对协议的诊断。这些检查包括从简单的MTU和链路状态一致性到BGP和EVPN状态验证再到端到端连接性测试。

故障排除演示

在这篇文章中,将演示如何使用NetQ来排除一些使用以下拓扑结构的常见配置错误。叶节点被配置为MLAG对,并且该结构内部正在运行带有对称IRB的EVPN和基于PIM的BUM复制 。

pYYBAGJbereAEVLbAADJpTIgeMY040.png

图 2 NVIDIA 空气中的拓扑

环境设置

该测试拓扑结构可以在名为NVIDIA Air的云基础设施模拟平台上启动。如要了解更多信息,请参阅《NVIDIA Air用户指南》。

1、选择创建模拟、演示市场和使用NetQ的网络故障排除选项卡。

在接下来的部分中,将讨论各种故障排除情景,并展示NetQ如何帮助确定问题的来源。

情景1:服务器01无法与服务器02通信

第一个问题很简单:两台服务器都连接到同一对叶节点交换机上,因此需要检查的地方仅限于以下几个方面:

所有服务器链接的L1和Bond接口配置

peerlink的MLAG状态和配置

vlan 10和vlan 20的L3和VRR接口配置

通过NetQ,只需点击几下就可以完成所有这些检查。

1、在模拟页面,选择启动NetQ,输入用户名和密码

2、在工作台标题中,选择验证并创建一个新的MLAG验证。

poYBAGJberiAUYTRAACgjYzzLkI801.png

图 3 情景 1 结果

当验证完成后,NetQ发现双宿设备有四个错误。对于每一个出现错误的检查,用户都可以查看更详细的信息并了解NetQ认为的错误是什么。

pYYBAGJberiAP0UWAADV9rGGj0g820.png

图 4 场景# 1 详细信息

在本情景中,NetQ清楚地指向接口bond1的VLAN配置,现在可以通过登录和比较两台叶节点交换机上的配置来进行快速验证和纠正。

用户可按照实验指导来依次解决问题。

第二个情景涉及VXLAN EVPN结构上的VLAN内通信。这种故障的常用故障排除流程可能涉及以下步骤:

1、确认所有BGP会话都已建立,并且所有对等层的EVPN地址族都已启用。

2、确认所有四个叶节点交换机上的VLAN至VNI映射是一致的。

3、确保导出和导入所需的Type-2路由使用同一组路由目标。

4、检查BGP是否被配置为发布所有已配置的VNI。

必须在所有叶节点交换机上比较这些数值。下面将展示用NetQ检查上述信息有多么简单。

1、在主工作台标题选择选项卡并打开EVPN会话选项卡。

2、在全屏视图中打开此选项卡,查看所有会话屏幕(图5)。

情景2:服务器01无法与服务器04通信

poYBAGJbermAfnM5AAEx2HzVOIU629.png

图 5 场景# 2 详细信息

现在可以在屏幕上看到所有的相关值,这些值以表格的形式呈现并且可以进行排序及过滤以缩小搜索范围。在该情景中,很容易发现叶节点01/02和叶节点03/04之间Vlan10的VNI映射差异。

用户可按照实验指导依次解决问题。

情景3:服务器01无法与服务器05通信

最后一个情景涉及VXLAN EVPN的VLAN间对称路由。这次,需要验证的内容有所增加,包括以下额外步骤:

每个VRF的BGP配置和会话状态

EVPN 5型路由在叶节点交换机之间的传播

检查L3 VNI的配置是否一致以及每个MLAG对是否有唯一的Router MAC

L3 VNI到VRF在所有交换机上的映射

通过NetQ EVPN验证功能,所有这些假设都可以在几秒钟内得到验证。

1、在主工作台标题中选择验证并创建一个新的按需EVPN验证。几秒钟后,用户即可看到结果(图6)

poYBAGJberqAGQUBAAClzuIlf2s179.png

图 6 情景# 3 结果

通过点击VRF一致性警告,用户可以清楚地看到错误位置。解决问题的时间缩短到几秒钟,管理员现在可以继续纠正叶节点03/04上的VNI至VRF映射。

pYYBAGJberuARagmAACxAkqRBLI404.png

图 7 场景# 3 详细信息

请查看实验室指南,了解解决这个问题所需的具体指令。

总结

在这篇文章中,展示了NetQ根据管理设备采集的各种指标来分析和推断网络状态的能力。以上三个情景展示了如何利用NetQ的验证和协议专用选项卡将根本原因分析的时长从几分钟或几小时缩短到几秒钟。这些验证可以按需求运行,也可以定期运行,甚至可以在过去的数据上运行,这是因为所有日志都存储在一个时间序列数据库中。

NetQ的能力远远超出了这篇文章中所展示和讨论的内容,并且其功能还包含设备库存、软件生命周期管理、基于阈值的警报以及与第三方平台(如Slack、PagerDuty和Grafana)的集成。NetQ将继续扩展并增加更多的功能和第三方集成,在未来为用户创造更多价值。

关于作者

Michael Kashin 是 NVIDIA 网络组的解决方案架构师,专注于数据中心、自动化和可观测性。他对软件开发、网络和云本地技术有着浓厚的兴趣,并热衷于利用自己的知识和专长帮助客户解决业务问题。在 2021 年加入 NVIDIA 之前, Michael 曾为多家技术供应商工作,帮助他们的客户构建云并开发基础设施管理软件。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4588

    浏览量

    101694
  • 服务器
    +关注

    关注

    12

    文章

    8111

    浏览量

    82486
  • 数据中心
    +关注

    关注

    15

    文章

    4184

    浏览量

    69956
收藏 人收藏

    评论

    相关推荐

    RS-485网络故障查找与排除

    RS-485网络故障查找与排除尽管更加现代化的替代技术日益增多,但RS-485技术仍然在无数的通信网络中保持着中流砥柱的地位。以下是检查常见故障和建立比较麻烦的RS-485
    发表于 02-26 15:14

    RS-485网络故障查找与排除

    RS-485网络故障查找与排除尽管更加现代化的替代技术日益增多,但RS-485技术仍然在无数的通信网络中保持着中流砥柱的地位。以下是检查常见故障和建立比较麻烦的RS-485
    发表于 02-26 15:37

    集中式网络故障诊断

    集中式网络故障诊断
    发表于 08-08 14:22

    使用Percepio的Tracealyzer和DevAlert实现FreeRTOS的可观察

    时间线、事件日志、CPU负载图、内存使用情况、任务依赖关系和许多其他有用的可视化结果。这些功能有助于实现可观察。您可以在FreeRTOS应用程序的深层追踪任务以及内核API调用。下图是在笔记本电脑上运行
    发表于 05-18 13:41

    巧用Ping和Traceroute命令排除网络故障

    在分析Ping 和Traceroute 命令工作原理和影响因素的基础上,详细介绍了使用Ping 和Traceroute 命令检查网络连接性、查看信息路径从而排除网络故障的方法和技巧。ping 命令是测试
    发表于 08-11 08:25 35次下载

    局域网网络故障排除策略

    局域网网络故障排除策略 【简 介】当我们组建好了一个小型网吧后,为了使网吧运转正常,网络维护就显得很重要了。由于网络协议和网络设备的复杂
    发表于 08-01 10:53 389次阅读

    网络故障节点的判断技巧

      利用交换机说明一定位网络故障节点的方法和技巧   一、将交换机的故障日志作为第一手材料
    发表于 11-23 10:57 1671次阅读

    笔记本网络故障排除

    电子发烧友为您提供了笔记本网络故障排除,帮助你解决 笔记本 出现网络故障时对您的干扰,希望对您有所帮助!
    发表于 07-11 16:11 193次下载
    笔记本<b class='flag-5'>网络故障</b><b class='flag-5'>排除</b>

    朗讯ATM网络故障案例分析

    朗讯ATM网络故障案例分析
    发表于 09-05 09:22 3次下载

    智能网络故障管理系统

    当前网络故障管理系统正朝着自动化智能化的方向发展。为了提高传统网络故障管理系统的智能化水平,基于专家系统规则引擎Jess和SNMP协议,设计了一个智能网络故障管理系统。该系统可实时监控被管网络
    发表于 11-11 15:47 4次下载
    智能<b class='flag-5'>网络故障</b>管理系统

    网络维护与常见故障的分析与排除详细资料分析

    本文档的主要内容详细介绍的是网络维护与常见故障的分析与排除详细资料分析主要内容包括了:1 网络维护概述,2 网络常见
    发表于 08-16 08:00 6次下载

    16个网络工程师常用的网络故障排除工具

    网络故障排除对于网络技术专家和网络工程师是颇具挑战的工作。每当添加新的设备或网络发生变更时,新的问题就会出现,而且很难确定问题出在哪里。每一
    的头像 发表于 08-25 11:37 9972次阅读

    NVIDIA NetQ使网络工作流程更易于故障排除和自动化

    NVIDIA NetQ 是一种高度可扩展的现代网络操作工具,为 NVIDIA Spectrum Ethernet 平台提供可操作的可见性。它将高级遥测技术与用户界面相结合,使网络工作流程更易于
    的头像 发表于 06-15 10:44 1136次阅读

    网络故障排查思路和处理方法

    网络故障是最容易出现的,且难以解决的问题。本文提供的网络故障排查思路和处理方法,可解决日常工作中大部分网络问题。
    发表于 10-31 09:14 7313次阅读

    【虹科技术分享】一般故障排除过程

    BACKPACK虹科Allegro故障排除工作流程虹科Allegro网络万用表是用于网络故障排除设备和
    的头像 发表于 02-24 10:19 446次阅读
    【虹科技术分享】一般<b class='flag-5'>故障</b><b class='flag-5'>排除</b>过程