0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA软件可选服务支持数据中心集群管理

NVIDIA英伟达 来源:NVIDIA英伟达 2025-12-13 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这项可选服务将帮助数据中心运营商监测整个 AI GPU 集群运行状况,从而最大限度地延长正常运行时间。

随着 AI 基础设施的规模和复杂性不断增加,数据中心运营商需要持续了解性能、温度和功耗等因素。这些洞察使数据中心运营商能够主动监测和调整大规模分布式系统中的数据中心配置,从而确保这些系统以最高效率和可靠性运行。

NVIDIA 正在开发用于可视化和监测 NVIDIA GPU 集群的软件解决方案,为云合作伙伴和企业提供洞察仪表板,帮助他们提高整个计算基础设施的 GPU 正常运行时间。

该服务由客户选择、自行安装和控制,用于监测 GPU 使用情况、配置和错误。它将包含一个开源客户端软件智能体,这是 NVIDIA 持续支持开放、透明软件的一部分,旨在帮助客户最大限度的发挥其 GPU 系统的性能。

通过这项服务,数据中心运营商将能够:

追踪功耗峰值,在不超出能耗预算的前提下最大化单位功耗性能。

监测整个集群的利用率、内存带宽和互连运行状况。

及早发现热点和气流问题,以避免过热降频和组件过早老化。

确认软件配置和设置一致,以确保结果可复现以及运行可靠。

发现错误和异常情况,及早发现故障部件。

这些功能可以帮助企业和云提供商可视化其 GPU 集群、解决系统瓶颈并优化生产力,从而提高投资回报。

此可选服务提供实时监测,让每个 GPU 系统与外部云服务通信和共享 GPU 指标。NVIDIA GPU 没有硬件跟踪技术、终止开关和后门。

开源智能体为数据中心所有者提供洞察

该服务将配备客户端软件智能体,客户可以安装该智能体,将节点级 GPU 遥测数据流式传输到托管在NVIDIA NGC的门户网站上。客户可以在仪表板中可视化其 GPU 集群利用率,既可以全局查看,也可以按计算区域 (在同一物理或云位置注册的节点组) 查看。

wKgZO2k8w5CAb7LYAALkxKtHjW086.jpeg

仪表盘可展示客户全球 GPU 集群的整体状态洞察。

该客户端工具智能体也计划开源,以提供透明度和可审计性。它将提供一个实际示例,展示客户如何将 NVIDIA 工具整合到他们自己的 GPU 基础设施监测解决方案中,无论是用于关键计算集群,还是整个 GPU 集群。

该软件能够帮助企业了解其 GPU 库存情况,但无法修改 GPU 配置或底层运行机制。它提供的是只读遥测数据,并由客户自行管理及自定义。

该服务还支持客户生成详细介绍 GPU 集群信息的报告。

随着 AI 应用的数量和复杂性不断增加,现代 AI 基础设施管理也在不断发展以适应这一趋势。AI 正在重塑各行各业以及各种应用,因此确保 AI 数据中心保持最佳状态运行至关重要。这项软件服务正是为此而生。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5729

    浏览量

    110300
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5329

    浏览量

    136220
  • 数据中心
    +关注

    关注

    18

    文章

    5852

    浏览量

    75253

原文标题:NVIDIA 软件可选服务支持数据中心集群管理

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    借助NVIDIA产品扩展AI就绪型数据中心

    从 Microsoft Office 等生产力软件到更复杂的设计和工程工具,AI 集成正在重新定义主流企业应用。这种转变要求现代数据中心超越单一用途的孤岛。
    的头像 发表于 05-15 09:32 343次阅读
    借助<b class='flag-5'>NVIDIA</b>产品扩展AI就绪型<b class='flag-5'>数据中心</b>

    AMC16Z为数据中心

    数据中心
    安科瑞缪志澄
    发布于 :2026年05月08日 14:47:10

    跳线架在数据中心的应用与优化策略

    的应用及其优化策略。 一、跳线架在数据中心的应用 线路集中管理数据中心内设备众多,线缆繁杂。跳线架通过集中管理线路,使得每条线路的来源和去向清晰可见,大大简化了线路
    的头像 发表于 04-02 10:56 283次阅读

    青智ZW3432B1数据中心电源管理系统监控方案

    随着数据中心的迅猛发展,数据中心能耗问题也越来越突出,可靠的数据中心配电系统方案,是提高数据中心电能使用效率,降低设备能耗的有效方式。 数据中心
    的头像 发表于 03-24 17:29 656次阅读
    青智ZW3432B1<b class='flag-5'>数据中心</b>电源<b class='flag-5'>管理</b>系统监控方案

    提高数据中心效率:探索PDU的作用

    数据中心是支撑我们数字世界的关键基础设施,承载着大量的服务器、网络设备和存储设备。高效的配电管理对于确保这些数据中心的平稳运行和最佳性能至关重要。配电单元 (PDU) 在
    的头像 发表于 02-24 17:57 1233次阅读

    KubePi:开源Kubernetes可视化管理面板,让集群管理如此简单

    KubePi的魅力远不止提供一个Web界面那么简单,它集成了多种强大功能: 2.1 多集群统一管理 一键导入 :支持通过Token、KubeConfig和证书三种方式导入现有Kubernetes
    发表于 02-11 12:53

    1分钟带你了解数据中心供电架构 #电子元器件 #数据中心 #供电架构

    数据中心
    沛城芯动力
    发布于 :2026年02月03日 15:39:04

    构建高可靠的数据中心零配置带外管理体系

    数据中心带外管理网传统需手动配置静态IP与VLAN,现可通过基于SONiC的交换机运行DHCP与TFTP服务,实现设备“即插即用”零配置上线。方案支持按物理位置自动分配IP,并具备双活
    的头像 发表于 12-31 09:21 1594次阅读
    构建高可靠的<b class='flag-5'>数据中心</b>零配置带外<b class='flag-5'>管理</b>体系

    数据中心发展的三大驱动力

    、可靠的基础支持。相关部门明确了加快5G网络、大数据中心等新型基础设施建设进度, 数据中心发展的三大驱动力 1、中国对于数据中心的政策支持
    的头像 发表于 12-26 10:34 602次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    NVIDIA Quantum-2交换机等主流设备。 平滑扩展:与现有400G/100G设备无缝互通,降低数据中心升级成本。 多场景覆盖:从AI训练集群的“大象流”到AI推理的碎片化流量,均可通过智能
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    :全球TOP3云服务商在其新一代数据中心规模部署睿海光电产品 四、服务承诺:全方位保障客户利益 睿海光电提供行业领先的服务保障: 质量保证 :3年超长质保,终身维修
    发表于 08-13 16:38

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据,若带宽利用率低
    发表于 07-29 15:02

    中型数据中心应用平台与差分晶体振荡器参数对照中型数据中心应用平台与差分晶体振荡器参数对照

    针对中型数据中心中网络交换、数据存储与边缘设备的时钟精度、低抖动、高温稳定性与功耗管理需求,FCO系列差分晶体振荡器提供了标准型、低抖动(UJ系列)与低功耗(PG系列)多个版本,支持
    发表于 07-10 14:11

    中型数据中心中的差分晶体振荡器应用与匹配方案

    中型数据中心的定义与特点 中型数据中心通常服务于中大型企业、科研机构或地方行业节点,具备50至200个机柜,部署多台服务器、交换设备、存储系统与光通信链路等,强调高带宽、低延迟与高可用性。关键设备
    发表于 07-01 16:33

    小型数据中心晶振选型关键参数全解

    数据中心案例 1.企业私有云数据中心 应用背景:该数据中心主要用于存储和处理企业的内部业务数据,主要包含文件存储、数据
    发表于 06-11 13:37