0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA UFM Cyber-AI为InfiniBand数据中心带来变革

GLeX_murata_eet 来源:NVIDIA英伟达中国 作者:NVIDIA英伟达中国 2021-08-02 14:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如今的数据中心承载着许多用户和各种应用,它们甚至已经成为科研、技术和全球产业竞争优势的关键因素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了要防止运营安全隐患的干扰外,保持数据中心的完整和平滑运行也至关重要。

更重要的是,恶意用户可能会利用数据中心的访问权限,运行被禁止的应用,滥用计算资源,进而导致意外停机以及更高的运营成本。对于今天的 IT 经理和支持开发者而言,能够快速识别问题并提高效率的数据中心管理工具比以往任何时候都更加重要。

NVIDIA 以图形处理能力和出色 GPU 计算性能而闻名,广泛应用于各个研究领域。同时, NVIDIA 也是安全和可扩展数据中心技术的领导者,提供了各种灵活的库和工具,来最大程度地优化业界一流的基础设施。

要为当今研究和商业领域最关键的组成部分提供全栈式解决方案,其中不仅包括提供一流的服务器平台、GPU 以及部署在整个数据中心的丰富软件组合,而且还需要关注到安全和可管理性是建立数据中心基础设施的关键支柱。

NVIDIA UFM Cyber-AI

为 InfiniBand 数据中心带来变革

NVIDIA Unified Fabric Manager(UFM)Cyber-AI 平台提供增强的实时网络遥测功能,并结合了 AI 智能和先进的分析技术,让 IT 经理能够发现运营异常,甚至预测网络故障。这既提高了安全性和数据中心的正常运行时间,又降低了整体运营费用。

UFM Cyber-AI 的独特优势在于它能够捕获丰富的遥测信息并采用 AI 技术来识别事件之间的隐形关联,从而检测到异常的系统和应用行为,而且在引发组件或系统故障之前就能识别到性能的下降。UFM Cyber-AI 甚至可以实时采取修正措施。该平台能够学习数据中心的典型运行模式,并根据网络遥测数据(包括流量模式、温度等)检测异常使用情况。

UFM Cyber-AI 基本原理

如UFM Cyber-AI 包含三个不同的层级。

输入遥测:以多种方式从网络中采集信息并学习:

网络中各种元素的遥测信息

网络拓扑结构(租户或应用的连接与资源分配)

网络设备特性和功能

处理模型:包含若干模型,如:用于数据准备的提取、转换和加载(ETL)处理引擎。它还包含用于对比的聚合、数据存储和分析模型。UFM Cyber-AI 使用用于异常检测和预测的机器学习(ML)技术和AI模型来学习数据中心网络组件(线缆、交换机端口、InfiniBand 网卡)的生命周期模式。

输出 dashboard:一个显示中央 dashboard 的可视化层,让网络管理员和云编排人员可以查看警报和建议,以提高网络利用率和效率并解决网络健康问题。dashboard 分为两个主要类别:可疑行为和链接分析,每个类别都包含警报和预测部分。

UFM Cyber-AI

功能丰富、简洁直观的自定义网络管理器

UFM Cyber-AI 还支持自定义网络警报,或查看随时间变化的异常情况,以及不同时间维度情况。通过使用基于小时或星期参数的聚合网络统计数据,可基于可能偏离正常操作使用的测量结果来设置阈值和配置通知。例如可以使用预定义阈值来识别有问题的线缆。

内置分析功能将当前的遥测信息与基于时间的汇总信息进行比较,以检测系统使用或流量模式中任何可疑的增加或减少并立即通知系统管理员。UFM Cyber-AI 还通过链路或端口遥测信息提供数据中心租户或应用警报,并识别与底层 PKEY 相关的统计数据及其相关节点。

目前只有 UFM Cyber-AI 提供支持预测性维护的链路故障预测等功能。通过在早期阶段监测性能下降情况,UFM Cyber-AI 可以预测潜在的链路或端口故障,使管理员能够进行及时维护进而规避数据中心的故障停机。

NVIDIA Morpheus 赋能未来

要为 InfiniBand 带来最强大的网络管理解决方案,就必须通过不断创新来应对当今数据中心管理的复杂性。NVIDIA 计划将 NVIDIA Morpheus 与 UFM Cyber-AI(图 3)进行集成,以从其他数据中心元件中获取更多遥测信息,例如基于服务器或机架的组件遥测或 DPU、GPU 和应用计数器。

我们甚至可以提供一个可以直接与 Kafka(一个用于高性能数据流水线、流分析和数据整合的开源分布式事件流平台)等其他 API 对接的附加层。用户可以使用该集成对开发者定义的操作系统异常进行特定检测,例如在一个专门用于生命科学研究的系统上进行加密挖掘检测。

Morpheus 是一个为网络安全开发者提供高度优化 AI 流水线和预训练 AI 功能的开放 AI 应用框架。这些功能能够即时检查整个数据中心架构中的所有网络流量。Morpheus 通过提供以下功能将数据中心的安全提升到全新的水平:

动态保护

实时遥测

自适应策略

用于检测和处理网络安全威胁的网络防御措施

随着 Morpheus 与 UFM Cyber-AI 设备的集成,NVIDIA 可以提供出色、完整的解决方案,为关键数据中心提高灵活性和可扩展性,并为开发者提供支持。通过自定义异常检测和与其他标准化 API 的对接,UFM Cyber-AI 可以成为任何多租户数据中心或云原生基础设施的一项灵活资产。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110

原文标题:使用 NVIDIA UFM Cyber-AI 安全、智能地管理数据中心

文章出处:【微信号:murata-eetrend,微信公众号:murata-eetrend】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为星河AI高算效数据中心网络亮相ODCC 2025

    以“拥抱AI变革 点燃算网引擎”为主题的2025开放数据中心大会(以下简称“ODCC 2025”)在北京国际会议中心召开。在这场汇集了数据中心
    的头像 发表于 09-16 14:54 2389次阅读
    华为星河<b class='flag-5'>AI</b>高算效<b class='flag-5'>数据中心</b>网络亮相ODCC 2025

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    [1]  利用搭载 DGX GB200 系统的 NVIDIA DGX SuperPOD[2] 数字孪生系统实现了库的重大扩展 。借助 NVIDIA 高性能加速计算平台的新模型,数据中心设计人员与操作
    的头像 发表于 09-15 15:19 1256次阅读

    华为数字能源亮相2025开放数据中心大会

    AI变革,点燃算网引擎”为主题,云集全球数据中心领域权威专家、头部企业代表、高校学者,聚焦算电协同、液冷、边缘计算等热门话题,深度探讨和分享智算产业新趋势、新技术和新业态,产业高质量
    的头像 发表于 09-11 13:50 851次阅读

    睿海光电:400G光模块技术创新与AI数据中心变革

    睿海光电:400G光模块技术创新与AI数据中心变革 一、400G光模块:新一代数据中心的核心引擎 在AI大模型训练、边缘计算和云服务快速发展
    的头像 发表于 08-18 13:52 759次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区发布全新升级的星河AI
    的头像 发表于 08-11 10:42 2001次阅读

    安森美携手英伟达推动下一代AI数据中心发展

    安森美(onsemi,美国纳斯达克股票代号:ON)宣布与英伟达(NVIDIA)合作,共同推动向800V直流(VDC)供电架构转型。这一变革性解决方案将推动下一代人工智能(AI数据中心
    的头像 发表于 08-06 17:27 1170次阅读

    NVIDIA 800V HVDC 架构赋能新一代AI数据中心 挑战传统机架电源系统极限

    800 V HVDC 不仅仅是当今的机架,而是面向未来的 AI 基础设施。2027 年,800 V HVDC 数据中心将与 NVIDIA Kyber 机架级系统同步全面投产,确保要求
    的头像 发表于 05-29 17:15 2875次阅读
    <b class='flag-5'>NVIDIA</b> 800V HVDC 架构赋能新一代<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b> 挑战传统机架电源系统极限

    施耐德电气发布数据中心高密度AI集群部署解决方案

    在人工智能(AI)驱动的产业革命浪潮中,数据中心正迎来深刻变革。面对迅猛增长的人工智能算力需求,部署高密度AI集群已成为数据中心发展的必然选
    的头像 发表于 04-19 16:54 1252次阅读
    施耐德电气发布<b class='flag-5'>数据中心</b>高密度<b class='flag-5'>AI</b>集群部署解决方案

    适用于数据中心AI时代的800G网络

    数据中心依赖数千甚至上万个GPU集群进行高性能计算,对带宽、延迟和数据交换效率提出极高要求。 AI云:以生成式AI核心的云平台,
    发表于 03-25 17:35

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 852次阅读

    Cadence颠覆AI数据中心设计

    ,当今新型数据中心AI 工厂)的建设正面临着如何处理其巨大的功耗和散热问题的严峻挑战,数字孪生技术在这场变革中扮演着至关重要的角色。
    的头像 发表于 03-21 15:43 866次阅读

    韩国将建全球最大AI数据中心

    据最新报道,韩国即将启动一项雄心勃勃的计划——建设全球最大的人工智能(AI)数据中心。该数据中心不仅在规模上令人瞩目,更在技术和投资上展现了韩国的强大实力。 据悉,该数据中心的电力容量
    的头像 发表于 02-20 09:24 893次阅读

    华为发布2025数据中心能源十大趋势

    今日,华为举办2025数据中心能源十大趋势发布会,华为数据中心能源领域总裁尧权全面解读数据中心能源十大趋势,AI时代
    的头像 发表于 01-14 10:24 882次阅读