0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为网络管理员导航生成式 AI

NVIDIA英伟达 来源:未知 2023-06-19 19:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

众所周知,人工智能正在改变世界。对于网络管理员而言,人工智能可以以一些令人惊叹的方式改善日常运营:

  • 重复性任务的自动化:这包括监控、故障排除和升级,可以节省时间,同时降低人为错误的风险。

  • 网络安全:人工智能可以帮助实时检测和应对安全威胁。例如,NVIDIA Morpheus 使网络安全开发者能够创建经过优化的实时数据 AI 流水线。

  • 拓扑优化:借助合适的遥测技术,人工智能可以分析流量模式并提出更改建议,从而优化网络性能。

  • 主动式网络规划:人工智能可以使用同样的高级网络遥测技术来评估趋势,以预测潜在问题,并在问题发生之前提出更改建议,从而避免问题的发生。

然而,人工智能无法取代经验丰富的网络管理员的专业知识。人工智能旨在增强您的能力,就像一个虚拟助理一样。因此,人工智能可能会成为您最好的朋友,但生成式 AI 是一种新的数据中心工作负载,它带来了新的范式转变:NVIDIA 集合通信库(NCCL)。

数据中心的演变

网络管理员不得不处理许多其他近期更改:

  • 如何配置网络

  • 如何监控和管理网络

  • 如何设计网络

  • 网络上的协议和工作负载

不久前,我们可能已经通过特定网络命令行界面(CLI)的专业水平来衡量新网络管理员的价值。随着混合云计算和 DevOps 的出现,从 CLI 到 API 的转变也在不断发展。

甚至您监控和管理网络的方式也发生了变化。您已经从使用 SNMP 和 NetFlow 在数据中心轮询设备的工具转向了新的基于交换机的遥测模型,在该模型中,交换机会主动以流式传输提供基于流的诊断详细信息。

您可以实操将新的工作负载引入数据中心,其中许多数据中心都有独特的网络需求。您已经看到传统数据库被数据分析和大数据集群所取代。

现在,当被要求构建人工智能集群时,人们很容易认为人工智能只是一个规模更大、速度更快的大数据应用程序。但人工智能是不同的,如果没有合适的工具,人工智能可能会很难实现。

生成式 AI 和 NCCL 的影响

您是一家大型企业的网络管理员。您的 CTO 参加了 GTC 2023,并了解了生成式 AI 他们希望通过构建像 ChatGPT 这样的大型语言模型来响应最终用户,并与最终用户进行交互,从而改变业务运营方式。该模型必须经过训练。这需要一个大型人工智能训练集群,许多 GPU 加速的服务器通过高速网络连接。

这个人工智能训练集群带来了许多新的挑战:

  • 网络流量模式和流量特性发生了显著变化,而传统 ECMP 表现不佳。

  • AI 集群参考设计需要用于计算/ GPU 、存储甚至带内管理的专用网络。

  • 网络流量是异构的,生成由 CPU 到 CPU 和 GPU 到 GPU 通信。

  • 人工智能集群必须能够适应在一台服务器上、多台服务器上运行作业,甚至是在一台计算机上同时运行多个作业。

  • 网络配置发生变化,参数可优化 RoCE 和 GPU 直接通信。

  • 人工智能作业必须在多次迭代中具有一致且可预测的作业完成时间。

  • 具有更高带宽交换机的新型扁平化拓扑。

  • 需要学习的新缩写词:CUDA、NVIDIA DOCA、BERT、LLM、DLRM 和 NCCL。

  • 新的监控工具:他们如何知道 AI 和 NCCL 是否表现良好?

那么,什么是 NCCL?以下是教科书般的答案:

NVIDIA Collective Communication Library(NCCL)实现了针对 NVIDIA GPU 和网络优化的多 GPU 和多节点通信原语。NCCL 提供了诸如 all-gather、all-reduce、broadcast、reduce 和 reduce-scatter 以及点对点发送和接收之类的例程,这些例程经过优化,可通过节点内的 PCIe 和 NVLink 高速互连以及节点间的 NVIDIA 网络实现高带宽和低延迟。

资料来源:

NVIDIA Collective Communication Library (NCCL)


对于网络管理员,NCCL 负责控制全新 AI 集群的流量模式。这意味着您需要针对 NCCL 进行优化的网络设计、针对 NCCL 优化的网络监控工具以及针对 NCCL 优化的以太网交换机。

NCCL 是实现 AI 集群上运行的工作负载的高性能、一致性和可预测性的关键。NCCL 也是一个交汇点:网络管理员和数据科学家都必须讲出并理解它。当他们都能流利地讲出它时,NCCL 可以成为这些具有不同所需技能的专业人士之间的共同语言。

鉴于 NCCL 的重要性,合适的网络可以决定和突破 AI 集群的性能。人工智能集群有一些独特的要求:

  • 抗噪能力强

  • 对故障具有弹性

  • 导轨优化拓扑

  • 无损网络转发

  • 性能隔离

  • 无阻塞网络架构

那么,接下来是什么呢?

您的工作是防止网络减缓人工智能集群的速度,但人工智能网络需要什么?高带宽、低延迟和高弹性是必要的,但还不够。您将如何选择合适的基础设施?

  • 基于产品手册?并不完全。

  • 根据供应商告诉您的?有点冒险,因为他们想卖给您一些东西。

  • 基于数据科学家们所要求的?他们不是网络专家,所以大多数人都不知道。

  • 基于经验丰富的网络管理员的建议?很有可能他们认为是 CPU,而不是 GPU,并且需求已经发生了变化。

人工智能的网络可能很难。“没有人会因为购买 X 而被解雇”这句格言与摩尔定律一样过时,因为人工智能的 X 因素与通用计算不同。即使是拥有专门的人工智能工程团队来预先测试集群性能的大型 IT 供应商,当性能随着更多用户的添加和多个作业的同时运行而急剧下降时,也会经常感到惊讶。

保证人工智能集群性能的最佳方法是遵循 NVIDIA 发布的人工智能参考架构之一,并使用具有人工智能可见性功能的基础设施来验证您的人工智能集群的健康状况和供给情况。

无论您的人工智能集群使用以太网还是 InfiniBand,NVIDIA 都会为您提供所需的工具、支持和培训,以使您成功并成为人工智能网络专家。

扫描下方二维码查看更多有关 NVIDIA 集合通信库(NCCL)的信息。

921c3bec-0e8f-11ee-962d-dac502259ad0.png


9238495e-0e8f-11ee-962d-dac502259ad0.gif  

更多精彩内容 使用 NVIDIA Spectrum-X 网络平台加速生成式 AI 工作负载
使用 NVIDIA Cumulus Linux 实现数据中心网络自动化
借助 NVIDIA WJH 更快地诊断网络问题
COMPUTEX2023 | NVIDIA 推出面向超大规模生成式 AI 的加速以太网平台


原文标题:为网络管理员导航生成式 AI

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4124

    浏览量

    99750

原文标题:为网络管理员导航生成式 AI

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    郭燕涛SQL Server 全能管理员在线课程分享

    的“兼职管理员”甚至开发人员顺手维护。这种重前端、轻底层的资源配置方式,在经济学上被称为“资产头寸的严重错配”。(看讠果aixuetang。xyz) 剥离掉技术的表象,一套关于“实例配置与权限体系
    发表于 04-19 16:28

    生成AI赋能虚拟调试——fe.screen-sim的架构价值

    生成AI赋能虚拟调试——fe.screen-sim的架构价值
    的头像 发表于 12-04 14:59 1293次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>赋能虚拟调试——fe.screen-sim的架构价值

    生成AI如何变革机器人工作流程

    非常激动地和大家分享我们最近的一些酷炫成果:我们正在利用生成 AI,让机器人变得更加灵活,使用起来也更加便捷!
    的头像 发表于 12-02 15:06 1849次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>如何变革机器人工作流程

    为什么网络需要DHCP服务器?

    DHCP是一种网络协议,全称为动态主机配置协议(Dynamic Host Configuration Protocol)。它被用于在计算机网络中自动分配IP地址和其他网络配置信息给客户端设备。DHCP的主要目标是简化
    的头像 发表于 09-29 11:22 2387次阅读
    为什么<b class='flag-5'>网络</b>需要DHCP服务器?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速了,但是你了解AI的发展历程吗?本章作者将为我们打开AI的发展历程以及需求和挑战的面纱。 从2017年开始生成
    发表于 09-12 16:07

    智能体化AI生成AI的区别

    生成 AI 的核心是“生成内容” —— 比如用大模型写报告,是对输入指令的被动响应。而智能体化 AI(Agentic
    的头像 发表于 08-25 17:24 2002次阅读

    生成 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文
    的头像 发表于 08-06 11:20 5474次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 重塑自动驾驶仿真:4D 场景<b class='flag-5'>生成</b>技术的突破与实践

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    ,以“全流量采集 + AI根因诊断 + 预测性运维”核心支柱,推动企业网络运维模式从传统的“被动响应”向“主动防御”和“故障自愈”的智能化方向跃迁。 三大核心能力:AI推理引擎重塑
    发表于 07-16 15:29

    SNMP协议在设备监控中的使用

    随着网络技术的飞速发展,网络管理变得日益重要。网络管理员需要一种高效、可靠的方式来监控网络设备、收集状态信息并对其进行配置。简单
    的头像 发表于 06-27 11:48 820次阅读
    SNMP协议在设备监控中的使用

    边缘生成AI面临哪些工程挑战?

    内就吸引了超过100万用户)在市场上迅速崛起并被广泛采用。而手机用户则经常使用语音搜索功能。这些应用有什么共同点呢?它们都依赖于云端来处理AI工作负载。尽管云端生成
    的头像 发表于 06-25 10:44 1369次阅读
    边缘<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>面临哪些工程挑战?

    生成AI爆发,企业还没AI革命做好准备

    当前,生成AI(GenAI)的能力正以约每六个月翻倍的速度迭代,但多数企业的应用进展仍停留在缓慢的线性增长中,甚至还在观望。这种差距导致企业逐渐落后,无法释放AI带来的巨大商业价值。
    的头像 发表于 06-18 23:10 895次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>爆发,企业还没<b class='flag-5'>为</b><b class='flag-5'>AI</b>革命做好准备

    谷歌新一代生成AI媒体模型登陆Vertex AI平台

    我们在 Vertex AI 上推出新一代生成 AI 媒体模型: Imagen 4、Veo 3 和 Lyria 2。
    的头像 发表于 06-18 09:56 1372次阅读

    麻烦管理员帮忙注销一下这个账号

    我想要注销jf_00115938这个账号,不想用这个平台,出于隐私保护,麻烦管理员帮忙注销一下。
    发表于 06-10 08:51

    Dify携手亚马逊云科技加速全球企业生成AI应用规模化落地

    科技遍布全球的基础设施与亚马逊云科技Marketplace,Dify将产品迅速推广至全球,汽车、制造、零售快消、医疗健康和游戏等多个行业逾百家企业提供服务,助力企业释放生成AI创新
    的头像 发表于 06-07 16:00 1077次阅读

    从Gartner报告看Atlassian在生成AI领域的创新路径与实践价值

    Atlassian入选Gartner 2025生成AI技术"新兴领导者"!其核心AI产品Rovo依托Teamwork Graph,支持从团队知识库中提取情境化的个性答案与洞察
    的头像 发表于 06-05 15:59 1319次阅读
    从Gartner报告看Atlassian在<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>领域的创新路径与实践价值