0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA UFM Cyber AI实现数据中心的安全性和可管理性

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-15 15:02 次阅读

今天的数据中心承载着许多用户和各种各样的应用程序。它们甚至已经成为研究、技术和全球产业竞争优势的关键要素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了安全威胁造成的运营中断之外,保持数据中心完好无损并平稳运行也至关重要。

如今的数据中心承载着许多用户和各种应用,它们甚至已经成为科研、技术和全球产业竞争优势的关键因素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了要防止运营安全隐患的干扰外,保持数据中心的完整和平滑运行也至关重要。

更重要的是,恶意用户可能会利用数据中心的访问权限,运行被禁止的应用,滥用计算资源,进而导致意外停机以及更高的运营成本。对于今天的IT经理和支持开发者而言,能够快速识别问题并提高效率的数据中心管理工具比以往任何时候都更加重要。

NVIDIA以惊人图形处理能力和出色GPU计算性能而闻名,广泛应用于各个研究领域。同时,多年来NVIDIA也一直是安全和可扩展数据中心技术的领导者,提供了各种灵活的库和工具,来最大程度地优化业界一流的基础设施。

NVIDIA认识到,要为当今研究和商业领域最关键的组成部分提供全栈式解决方案,其中不仅包括提供一流的服务器平台、GPU以及部署在整个数据中心的丰富软件组合,而且还需要关注到安全和可管理性是建立数据中心基础设施的关键支柱。

此外,恶意用户可能会利用数据中心访问权限,通过运行被禁止的应用程序来滥用计算资源,从而导致意外的停机时间和更高的操作成本。 数据中心管理工具比以往任何时候都更能快速发现问题,同时提高效率,是当今 IT 经理和支持它们的开发人员的首要任务。

NVIDIA 最著名的可能是惊人的图形功能和无与伦比的 GPU 计算性能,几乎应用于所有研究领域。然而,多年来,它还是安全和可扩展数据中心技术的领导者,包括灵活的库和工具,以最大限度地利用世界一流的基础设施。

NVIDIA 认识到,为 MIG 这一当今研究和业务中最关键的组成部分提供全套解决方案,不仅包括世界一流的服务器平台,而部署在整个数据中心的最广泛的软件组合。 NVIDIA 也知道,安全性和可管理性是构建数据中心基础设施的关键支柱。

NVIDIA UFM 网络 AI 彻底改变了 InfiniBand 数据中心

NVIDIA Unified Fabric Manager ( UFM )网络 AI 平台提供增强的实时网络遥测,结合 AI 提供的智能和高级分析。它使 It 经理能够发现操作异常,甚至预测网络故障。这提高了安全性和数据中心正常运行时间,同时降低了总体运营开支。

UFM 网络人工智能的独特优势在于它能够捕获丰富的遥测信息,并利用人工智能技术来识别事件之间隐藏的相关性。这使它能够检测异常的系统和应用程序行为,甚至在性能下降导致组件或系统故障之前识别它们。 UFM 网络 AI 甚至可以实时采取纠正措施。该平台学习数据中心的典型操作模式,并基于网络遥测数据检测异常使用,包括流量模式、温度等。

UFM 网络人工智能基础

UFM 网络 AI 包含三个不同的层,如图 1 所示。

pYYBAGJZGMqARYwYAAAs5xkFy4I261.png

图 1 。 UFM 网络 AI 层

输入遥测: 通过各种方式收集信息并从网络中学习:

网络中所有元件的遥测

网络拓扑(租户或应用程序的连接和资源分配)

网络设备的特点和能力

处理模型: 包含几个模型,例如用于数据准备的提取、转换和加载( ETL )处理引擎。它还包含聚合、数据存储和用于比较的分析模型。 UFM 网络人工智能使用机器学习( ML )技术和人工智能模型进行异常检测和预测,以学习数据中心网络组件(电缆、交换机端口、 InfiniBand 适配器)的生命周期模式。

输出仪表板: 一个可视化层,它为网络管理员和云编排器提供一个中央仪表板,以查看有关提高网络利用率和效率以及解决网络健康问题的警报和建议。仪表板提供了两个主要类别: 可疑行为 和 链接分析 ,每个类别都包括警报和预测部分(图 2 )。

poYBAGJZGM-AGP_sAADwh44qLhA142.png

图 2 。 UFM 网络人工智能预测仪表盘

功能丰富、直观且可定制的 fabric manager

UFM 网络人工智能还支持定制的网络警报或查看触发的异常随着时间的推移和在不同的时间维度。通过使用基于小时或星期几参数的聚合网络统计信息,您可以根据 MIG ht 偏离典型操作用途的测量值设置阈值和配置通知。例如,可以使用预定义的阈值来识别有问题的电缆。

内置分析将当前遥测信息与基于时间的聚合信息进行比较,以检测使用或流量模式中的任何可疑增加或减少,并立即通知系统管理员。 UFM-cyberai 还通过链路或端口遥测信息提供数据中心租户或应用程序警报,以识别与低级别分区密钥( PKEY )相关的统计信息及其相关节点。

只有 UFM 网络人工智能提供了链接故障预测等功能,支持预测性维护。通过在早期阶段检测性能下降情况, UFM 网络人工智能可以预测潜在的链路或端口故障。这使管理员能够执行维护并消除数据中心停机时间。

NVIDIA Morpheus 的未来增强功能

为 InfiniBand 带来最强大的结构管理解决方案需要不断创新,以跟上管理当今复杂数据中心的复杂性。我们计划将 NVIDIA Morpheus 与 UFM Cyber AI 集成(图 3 ),从其他数据中心元素(如服务器或基于机架的组件遥测或 DPU 、 GPU 和应用程序计数器)带来更多遥测信息。

我们甚至可以提供一个额外的层,它可以直接与其他 api 接口,比如 Kafka ,一个用于高性能数据管道、流分析和数据集成的开源分布式事件流平台。您可以使用该集成对开发人员定义的操作系统异常进行特定的检测,例如对生命科学研究专用系统的加密挖掘检测。

pYYBAGJZGNaAJnotAACaVH7q6Cs709.png

图 3 。 UFM 网络人工智能与 Morpheus 框架的集成示例

Morpheus 是一个开放的人工智能应用框架,为网络安全开发者提供高度优化的人工智能管道和预训练的人工智能能力。这些功能使您能够通过数据中心结构即时检查所有网络流量。 Morpheus 通过提供以下功能为数据中心带来了新的安全级别:

动态保护

实时遥测

适应性策略

用于检测和修复网络安全威胁的网络防御

poYBAGJZGNyACbDHAACF9cYB950783.png

图 4 。 UFM 网络人工智能作为灵活和可扩展平台的示例

随着 Morpheus 集成到 UFM Cyber AI 设备中,我们可以为关键任务数据中心和支持开发人员提供最佳和最完整的解决方案,该解决方案也具有灵活性和可扩展性。通过可定制的异常检测和与其他标准化 API 的接口, UFM Cyber AI 是任何支持多租户的数据中心或云本地基础设施的灵活资产。

关于作者

David Slama 担任 NVIDIA 网络营销高级总监,专注于高性能计算、人工智能、云解决方案和 InfiniBand 技术。 Slama 于 2005 年加入 Mellanox ,担任软件工程师,并在 Mellanox 担任多个软件管理职位,直到 2020 年。他领导云解决方案、以太网和 InfiniBand 软件管理、存储、自动化解决方案以及上游活动,如 Ansible 、 Kubernetes 、 OpenStack 、 puppet 、 chef 等。 Slama 拥有 ML 和 AI 领域的网络专利。他拥有政府学硕士学位和管理学和计算机科学学士学位。

Scot Schultz 是 HPC 技术专家,专注于人工智能和机器学习系统。 Scot 在分布式计算、操作系统、人工智能框架、高速互连和处理器技术方面拥有广泛的知识。在他的整个职业生涯中,拥有超过 25 年的高性能计算系统经验,他的职责包括各种工程和领导角色,包括战略 HPC 技术生态系统支持。 Scot 在众多行业标准组织的成长和发展中发挥了重要作用。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4597

    浏览量

    101756
  • 数据中心
    +关注

    关注

    15

    文章

    4189

    浏览量

    70114
  • 人工智能
    +关注

    关注

    1776

    文章

    43899

    浏览量

    230640
收藏 人收藏

    评论

    相关推荐

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    #永久链路 #信道测试 #数据中心

    数据中心
    jf_51241005
    发布于 :2024年02月23日 10:17:58

    基于NVIDIA DOCA 2.6实现高性能和安全AI云设计

    作为专为 NVIDIA® BlueField® 网络平台而设计的数据中心基础设施软件框架,NVIDIA® DOCA™ 使广大开发者能够利用其行业标准 API 在 NVIDIA Blue
    的头像 发表于 02-23 10:02 187次阅读

    KVM矩阵:打造无缝的数据中心管理体验

    在信息技术日新月异的时代,数据中心管理效率与安全性已成为企业竞争力的重要组成部分。KVM矩阵,作为一种创新的远程管理解决方案,正在逐渐崭露头角,它以其独特的功能和优势,为打造无缝的
    的头像 发表于 02-18 14:36 146次阅读
    KVM矩阵:打造无缝的<b class='flag-5'>数据中心</b><b class='flag-5'>管理</b>体验

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    数据处理器:DPU编程入门》读书笔记

    实现了由传统基础设施到现代基于“零信任”环境的转型,可对数据中心的每个用户进行身份认证,保障了企业从云到核心数据中心,再到边缘的安全性,同时在效率和性能上有了更大的提升。 卸载
    发表于 12-21 10:47

    #预端接光缆 #24芯光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2023年12月08日 11:01:21

    大模型时代,数据中心将转向何方?

    数据中心大模型
    脑极体
    发布于 :2023年11月22日 09:01:41

    安科瑞数据中心能效管理系统:提升能效,降低运营成本

    数据中心能效管理系统是一套功能强大、应用广泛、优势明显的能效管理解决方案。通过该系统,数据中心可以实现对能源的精细化、智能化
    的头像 发表于 11-07 15:57 253次阅读
    安科瑞<b class='flag-5'>数据中心</b>能效<b class='flag-5'>管理</b>系统:提升能效,降低运营成本

    适用于数据中心AI 时代的网络

    十多年来,传统的云数据中心一直是计算基础设施的基石,满足了各种用户和应用程序的需求。然而,近年来,为了跟上技术的进步和对 AI 驱动的计算需求的激增,数据中心进行了发展。 本文探讨了网络在塑造
    的头像 发表于 10-27 20:05 251次阅读
    适用于<b class='flag-5'>数据中心</b>和 <b class='flag-5'>AI</b> 时代的网络

    综合能效管理系统为数据中心配电管理能耗

    节能降耗压力迫在眉睫,供配电系统作为数据中心的动力心脏,如何实现供配电系统稳定、可靠、安全、经济、节能、低碳成为数据中心领域关注点。 关键词:数据中
    的头像 发表于 10-19 10:39 291次阅读
    综合能效<b class='flag-5'>管理</b>系统为<b class='flag-5'>数据中心</b>配电<b class='flag-5'>管理</b>能耗

    AI智能呼叫中心

    可以自动识别和响应来电,通过分析用户的语音、文字和情绪等信息,并给出针对的应答,与传统的人工处理相比,AI智能呼叫中心能够实现24/7不间断的服务,大幅提高了处理效率和用户满意度。二
    发表于 09-20 17:53

    NVIDIA AI Enterprise 4.0 推出,助力企业构建生产就绪的生成式 AI 为业务赋能

    AI 进行创新的企业加速开发,为企业提供生产就绪型支持、可管理性安全性和可靠性。 使用 NVIDIA NeMo 快速大规模 训
    的头像 发表于 09-19 20:20 395次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Enterprise 4.0 推出,助力企业构建生产就绪的生成式 <b class='flag-5'>AI</b> 为业务赋能

    使用 NVIDIA DOCA 2.2 加速数据中心工作负载和 AI 应用程序

    数据中心的创新,实现了应用程序的快速部署。 凭借全面的功能,NVIDIA DOCA 可为基于 BlueField DPU 进行开发的开发人员提供大规模加速数据中心工作负载和人工智能应
    的头像 发表于 09-05 19:40 379次阅读
    使用 <b class='flag-5'>NVIDIA</b> DOCA 2.2 加速<b class='flag-5'>数据中心</b>工作负载和 <b class='flag-5'>AI</b> 应用程序

    使用 NVIDIA Cumulus Linux 实现数据中心网络自动化

    云基础设施,传统网络也在不断发展。传统网络需要根据业务需求进行扩容。这增加了网络运营团队在管理、维护并通过负载而精确配置不断适应变化环境的负担。 为了克服手动管理网络运营带来的限制,数据中心必须
    的头像 发表于 06-05 10:45 343次阅读
    使用 <b class='flag-5'>NVIDIA</b> Cumulus Linux <b class='flag-5'>实现</b><b class='flag-5'>数据中心</b>网络自动化