0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心加速网络技术优势与实施策略

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-03-07 14:37 次阅读

加速网络CPUGPU、DPU(数据处理器)或 SuperNIC 组合到专为设计用于优化网络工作负载的加速计算网络架构。它使用专用硬件来卸载要求严苛的任务,以增强服务器功能。随着 AI 和其他新工作负载的复杂性和规模不断增加,对加速网络的需求变得至关重要。

数据中心作为新的计算单元,随着网络服务对 CPU 压力的增加,现代工作负载对网络基础设施提出了新的挑战。网络基础设施需要具备敏捷性、自动化和可编程性的框架,并配备加速器和卸载功能,这些是充分发挥人工智能技术潜力和推动创新的关键。

本文将探讨加速网络技术在数据中心中的优势和实施策略,并重点介绍其在提升性能、可扩展性和效率方面的作用。

加速您的网络

网络加速需要优化网络的各个方面,包括处理器、网卡(NIC)、交换机、线缆、光纤通信和网络加速软件。利用无损网络、远程直接内存访问(RDMA)、动态路由、拥塞控制、性能隔离和网络计算,将帮助企业充分发挥现代应用程序(包括 AI)的潜力。

通过合理控制数据注入速率,可以显著提高共享网络的效率。在处理大规模数据流时,实施动态路由算法以太网交换机能够动态负载均衡整个网络中的数据,避免拥塞并降低延迟。交换机的多路径和数据包分发技术可以进一步提升网络效率,确保数据及时到达,并最大程度减少瓶颈。这些技术有助于防止交换机与 NIC 或 DPU 之间的数据冲突,而流量隔离技术通过防止一个数据流对其他数据流产生负面影响,从而确保数据的及时交付。

另一种优化技术是部署 SuperNIC 和 DPU。SuperNIC 是一种适用于 AI 云数据中心的网络加速器,可在 GPU 服务器之间提供可靠、无缝的连接。DPU 是一种新兴的处理器类别,可实现增强、加速的网络。在 SuperNIC 和 DPU 的帮助下,可以从主机处理器中卸载工作负载,以加速通信,从而使数据中心能够应对不断增长的数据移动需求。

要实现加速网络,请考虑以下技术。

加速服务

工作负载经历了重大的范式转变,过渡到去中心化,通过容器和微分段分割工作负载。这导致服务器之间的网络带宽(东西向流量)大幅增加。

AI 工作负载是一个分布式计算问题,需要使用多个互连的服务器或节点。这会给网络和 CPU 带来巨大压力。工作负载的去中心化需要重新检查网络基础设施,从而通过添加加速器使 CPU 和 GPU 摆脱处理网络、存储和安全服务的负担。这使得 CPU 能够专注于应用程序工作负载。加速可确保这些节点之间的高速、低时延数据传输,并实现高效的工作负载分配和更快的模型训练。

网络抽象

向高度虚拟化数据中心和云模型的转变正在给传统网络带来压力。传统数据中心网络的设计并不是为了支持当今虚拟化工作负载的动态特性。网络抽象(包括网络叠加)可以在物理网络之上运行多个独立的、分离的虚拟化网络层。这些对于提供灵活性、扩展性和加速至关重要。但是,如果实施不当,它们可能会阻碍网络流量。

网络优化

收集和处理的大量数据已将工作负载推向以数据为中心的时代。大型数据集的可用性与机器学习和生成式 AI 等技术进步相结合,增加了对更多数据的需求,以满足学习算法的需求。这种数据爆炸式增长的后果是需要移动、处理、检索和存储大型数据集。

无损网络可以保证准确的数据传输,而不会造成任何丢失或损坏,对于移动、处理、检索和存储这些大型数据集至关重要。RDMA 技术通过在不涉及 CPU 的情况下实现内存位置之间的直接数据传输来提高网络性能。无损网络和 RDMA 的结合可以优化数据传输效率,减少 CPU 和 GPU 空闲时间,从而实现高效的数据移动,以满足现代应用程序的需求。

端到端堆栈优化

现代工作负载具有独特的网络流量模式。传统工作负载生成的流量模式具有多流、小数据包和低方差。现代应用程序的流量涉及大数据包、少量流和高方差,包括大象流和流量模式的频繁变化。

动态路由算法用于动态负载均衡在整个网络中的数据,从而防止这些新流量模式的拥塞和高时延。显式拥塞通知(ECN)等拥塞控制机制还可确保高效的数据流并最大限度地减少性能下降。为此,必须使用优化的端到端堆栈来构建网络,以加速新的流量模式。

网络计算

现代工作负载的大型数据集需要对高度并行化的算法进行超快速处理,这使其更加复杂。随着计算需求的增加,网络计算通过提供基于硬件的集合通信操作加速,有效地将集合操作从 CPU 卸载到网络。这一功能显著提高了分布式 AI 模型训练的性能,减少了通信开销,并加速了模型收敛。从而消除了在端点之间多次发送数据的需求,并加速了网络性能。

网络加速可降低 CPU 利用率,为 CPU 处理应用程序工作负载留出更多容量。它还可以减少抖动以改善数据流,并提供更高的整体吞吐量,从而更快地处理更多数据。

总 结

网络加速技术不断发展,并变得更加专业。最新的演进将解决 AI 工作负载问题,这些工作负载需要一致、可预测的性能以及能够运行多租户环境的计算和能效。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10449

    浏览量

    206579
  • 交换机
    +关注

    关注

    19

    文章

    2438

    浏览量

    95668
  • 光纤通信
    +关注

    关注

    20

    文章

    434

    浏览量

    44229
  • 数据中心
    +关注

    关注

    15

    文章

    4188

    浏览量

    70093
  • 数据处理器
    +关注

    关注

    0

    文章

    23

    浏览量

    8565

原文标题:借助加速网络实现数据中心现代化

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    #mpo光纤跳线 #数据中心光纤跳线

    光纤数据中心
    jf_51241005
    发布于 :2024年03月22日 10:18:31

    多业务光端机在数据中心的应用:提升网络效率的关键

    随着云计算、大数据技术的迅猛发展,数据中心已成为现代社会不可或缺的基础设施。数据中心内部网络的高效、稳定运行对于整个数据中心的性能至关重要
    的头像 发表于 02-23 14:09 234次阅读

    #永久链路 #信道测试 #数据中心

    数据中心
    jf_51241005
    发布于 :2024年02月23日 10:17:58

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    #预端接光缆 #24芯光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2023年12月08日 11:01:21

    大模型时代,数据中心将转向何方?

    数据中心大模型
    脑极体
    发布于 :2023年11月22日 09:01:41

    适用于数据中心和 AI 时代的网络

    十多年来,传统的云数据中心一直是计算基础设施的基石,满足了各种用户和应用程序的需求。然而,近年来,为了跟上技术的进步和对 AI 驱动的计算需求的激增,数据中心进行了发展。 本文探讨了网络
    的头像 发表于 10-27 20:05 251次阅读
    适用于<b class='flag-5'>数据中心</b>和 AI 时代的<b class='flag-5'>网络</b>

    Alveo U50数据中心加速器卡数据手册

    电子发烧友网站提供《Alveo U50数据中心加速器卡数据手册.pdf》资料免费下载
    发表于 09-15 11:44 0次下载
    Alveo U50<b class='flag-5'>数据中心</b><b class='flag-5'>加速</b>器卡<b class='flag-5'>数据</b>手册

    Alveo U50数据中心加速数据

    电子发烧友网站提供《Alveo U50数据中心加速数据表.pdf》资料免费下载
    发表于 09-15 10:45 0次下载
    Alveo U50<b class='flag-5'>数据中心</b><b class='flag-5'>加速</b>卡<b class='flag-5'>数据</b>表

    ODCC 2023 | 华为数据中心网络荣膺2023开放数据中心大会三项大奖

    。能获得此三项大奖,无疑是体现了业界对华为数据中心网络领先地位和技术实力的认可。 ODCC作为全球数据中心行业标杆级盛会,至2014年成立以来,每年吸引国内外超万名专家参会,已发布数百
    的头像 发表于 09-13 19:35 461次阅读

    Alveo U30数据中心加速器卡数据手册

    电子发烧友网站提供《Alveo U30数据中心加速器卡数据手册.pdf》资料免费下载
    发表于 09-13 09:15 0次下载
    Alveo U30<b class='flag-5'>数据中心</b><b class='flag-5'>加速</b>器卡<b class='flag-5'>数据</b>手册

    常见的液体冷却方式有哪些 数据中心浸没式液冷技术优势分析

    浸没式液冷使用冷却液作为热传输媒介,液体具有更高的导热率和比热容,因此可以更快地传导以及更有效地吸收热量。同时,因为减少了风扇和空调的使用,采用浸没式液冷技术数据中心具有更低的PUE。根据
    的头像 发表于 08-17 11:17 3116次阅读
    常见的液体冷却方式有哪些 <b class='flag-5'>数据中心</b>浸没式液冷<b class='flag-5'>技术优势</b>分析

    恒讯科技分析:本地数据中心与云数据中心哪个适合我们的业务?

    ,数字化转型已经让多家公司开始了云迁移之旅。如今,大多数企业通过混合云策略运行本地数据中心和云数据中心,该策略提供了两全其美的优势。 本地
    的头像 发表于 07-19 11:22 348次阅读

    浅谈数据中心精细化建设策略分析

    摘要:通过分析用户需求、建设和运维等多方对数据中心建设的要求;结合国家政策、数据中心发展趋势,创新性地引入关键因素多角度分析法。同时系统性地提出数据中心高质量发展中如何进行精细化建设的策略
    的头像 发表于 05-17 10:24 394次阅读
    浅谈<b class='flag-5'>数据中心</b>精细化建设<b class='flag-5'>策略</b>分析