0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI智能网卡在AI网络中的作用

奇异摩尔 来源:奇异摩尔 2024-12-18 16:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

写在开头,本文主要介绍智能网卡在AI网络的作用并在一定场景下说明DPU和智能网卡在功能上的一些区别以理解两者的相似点和不同点。

智算中心又称人工智能计算中心,通常配置有大量的图形处理单元(GPU)和张量处理单元(TPU),以及针对人工智能工作负载优化的高带宽内存和存储系统。它们为机器学习深度学习提供专门支持,包括数据预处理、模型训练以及推理服务。

人工智能计算中心的设计非常重视并行处理能力,并且能够处理大量的数据集。它们通常包括深度学习框架和库的支持,为开发者提供方便的开发环境。此外,它们可能会提供针对人工智能应用的优化工具与API,从而最大化硬件性能。

以GPU为核心的分布式计算

GPU拥有高度并行的处理架构,能够同时处理大量的计算任务,特别适合于人工智能领域中大规模的矩阵运算和向量计算。在智算中心,GPU是主要的计算节点,而CPU则更多承担任务调度、系统管理和其他非并行计算任务。智算中心是以GPU为中心的架构设计,是为了满足人工智能领域对高性能计算资源的需求,且要求网络高可靠、超低延时及超高的带宽。

AI智能网卡在AI网络中的作用

我们所说的Scale-out架构的流量特性究竟是什么呢?它要求具备高吞吐量,通常约为100 Gbps,同时包长较短,典型的往返时间仅为10微秒。Scale-out架构的关键在于必须有效利用所有可用带宽,并确保流量的均匀分布。GPU流量通常较大,与典型的服务器间流量存在差异,因此应高效采用负载均衡方案,如路径感知(Path-aware)、自适应(Adaptive)或无损(Lossless)负载均衡方式。此外,还需具备快速的丢包恢复和重传机制,以避免产生高延迟,并结合适用于该架构需求的拥塞控制算法以实现最佳性能。

AI智能网卡Smart NIC主要解决的问题就是通过与交换机、GPU等硬件互联实现尽可能的无损通信。由于AI集群的规模从万卡到十万卡演进,北向网络的扩展即Scale-out网络互联(又可以理解为后端网络)通常需要配备高性能、高带宽的智能网卡,配合其他硬件设备共同解决大规模网络拥塞、死锁、丢包及乱序等一系列网络传输的问题。智能网卡的功能是重在网络加速传输,而DPU则更适合需要降低CPU工作负载以及需要加密存储的多类功能的场景。

以下以AMD不久前发布的AI网络互联结构为例可以帮助我们理解原生智能网卡和DPU的应用区别:

传统以太网Frontend:连接非AI服务器的其他数据中心基础设施和外部网络,需确保安全和存储加速能力并降低CPU开销,AMD通过最新的Saline 400 DPU与ZEN 5 EPYC CPU连接并降低其工作负载。

后端网络Backend:Scale-out网络直接连接GPU,以便共享查询和激活结果,支持大规模训练和推理。当前面临的挑战主要包括高效扩展、故障恢复、网络拥塞和数据丢失等一系列网络传输问题。AMD使用8张Pollara 400 SmartNIC 与GPU /交换机互通,所以这里的网卡与DPU存在适用场景的区别。

下一代的智能网卡应该具备更高的速率带宽(400G-800G演进),除了自适应路由、选择性重传功能以及支持智能堆栈的可扩展性与灵活性,能够支持更高的QP队列动态管理也是重要的优选性能之一。随着UEC超以太联盟的壮大以及基于以太网 RDMA优化的智算网络Scale out改进路线的明确,下一代支持UEC的智能网卡将是迈向十万卡集群的重要互联硬件。这些创新技术为AI网络的未来奠定了坚实的基础,使得网络更加高效与可靠。

智能网卡和DPU的主要结构区别

我们以英伟达BlueField-3 DPUs为例来解释DPU和网卡的主要结构区别,BlueField 架构本质上是将网卡子系统(基于 ConnectX)与可编程数据路径、用于加密、压缩和正则表达式的硬件加速器以及用于控制平面的 Arm控制器融为一体。在 BlueField-3 中,可编程包处理器包含 16 个核可处理 256 个线程,实现了 Arm 核上的零负载数据路径处理。在许多应用中,由数据路径自主处理已知的网络流量,由 Arm 核处理新流量等例外情况及控制平面功能。

从其内部架构我们发现BlueField-3 DPU 自带一部分CX7的智能网卡网络传输功能,针对云计算和云原生环境对多租户安全及加密的高要求,DPU内置了强大的压缩和加密功能。同时,为了适应云计算场景下多样化的软件应用需求,DPU集成了众多加速器引擎,并配备了高性能的Arm CPU内核,有效减轻了CPU在相关领域的工作负担。

相对而言,智能网卡主要专注于网络加速和传输性能的提升,其内嵌的CPU内核更为精简,对于加密、压缩功能以及软件应用加速引擎的需求并不高。因此,相较于DPU,智能网卡在功能上显得更为“轻量级”,这一说法也因此而来。

以上综述可以得出一个结论:新一代的SmartNIC的主要面向的是AI网络,尤其是在分布式训练、大规模推理的应用场景进行网络传输加速与管理;它使用比DPU更少的计算能力及成本来实现这一目标。反过来说,DPU除了标准的网络接口功能,它通常还包含多个处理核心、专用加速模块(如加密解密、深度包检查、虚拟化支持)等,普遍成本高于SmartNIC。

GenAI IaaS背景下SmartNIC的需求

根据国际数据公司 (IDC)发布的《中国智算服务市场(2023下半年)跟踪》报告显示,2023下半年中国智算服务市场整体规模达到114.1亿元人民币,同比增长85.8%。其中,2023下半年,智算集成服务市场规模为36.0亿元人民币,同比增速129.4%;GenAI IaaS市场在2023年从0到1爆发式增长,在下半年市场规模达到32.2亿元人民币;Non-GenAI IaaS市场规模达到45.9亿元人民币,以较低增速保持增长。

智算集成服务以及GenAI IaaS贡献了市场重要增量:回顾整个2023年,中国Gen AI进入发展元年,智能算力需求爆发式增长。相比于2022年,2023年智算服务市场增长81.6亿元人民币。其中GenAI IaaS市场贡献59%,智算集成服务市场贡献38%。

头部云厂商过往在AI+云计算领域有双向积累的公司正在获得先发优势,如字节、阿里、百度、腾讯受益于过往在AI领域的沉淀、GPU资源以及在基础设施上的领先技术储备,在市场上获得先发优势并将其资源投入不断向GenAI IaaS市场靠拢。

随着AI网络技术的不断迭代,以Scale-out 互联作为集群服务器间大规模扩展的需求已经成为业内共识。如今,智能网卡作为Scale-out 的关键组件,其产品定位与发展路线显然与DPU不同。

根据Dell’Oro集团发布的《Ethernet Adapter and Smart NIC 5-Year July 2024 Forecast Report》,预计到2028年,以太网智能网卡的市场价值将超过160亿美元。这一增长主要得益于AI服务器集群Scale-out对后端网络以太网连接的强烈需求。随着人工智能通用应用的出现,服务器与后端以太网网络的连接需求日益增长,这对于大型语言模型的训练至关重要。

以上数据并不意味着国内DPU的市场已经萎缩,由于AI大模型的爆发,云厂商们正在通过加强发展生态合作伙伴来寻求异构算力的调度以及基础设施的集成,推动云计算与AI网络的按需融合。

DPU和智能网卡作为现代网络基础设施中不可或缺的硬件组件,它们在各自的目标应用领域内展现出了潜力和广阔的发展前景。在我国云计算、边缘计算以及智算中心的迅猛发展背景下,我们有理由相信,未来将会有更多创新技术在这两类产品中得到推陈出新,为国内新质生产力的崛起提供支撑。

关于我们

AI网络全栈式互联架构产品及解决方案提供商

奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale out网络的AI原生智能网卡、面向南向Scale up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。

奇异摩尔的核心团队汇聚了来自全球半导体行业巨头如NXPIntel、Broadcom等公司的精英,他们凭借丰富的AI互联产品研发和管理经验,致力于推动技术创新和业务发展。团队拥有超过50个高性能网络及Chiplet量产项目的经验,为公司的产品和服务提供了强有力的技术保障。我们的使命是支持一个更具创造力的芯世界,愿景是让计算变得简单。奇异摩尔以创新为驱动力,技术探索新场景,生态构建新的半导体格局,为高性能AI计算奠定稳固的基石。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络
    +关注

    关注

    14

    文章

    8132

    浏览量

    93093
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296676
  • 智能网卡
    +关注

    关注

    1

    文章

    53

    浏览量

    12698

原文标题:Kiwi Talks | AI网络为何需要智能网卡?一文看懂智能网卡与DPU的差异

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI赋能6G与卫星通信:开启智能天网新时代

    的\"天网\"更加智能、可靠和高效。 AI驱动的网络优化:让6G网络\"聪明\"起来 想象一下,当城市突然出现大型活动,如体育赛事或音乐节
    发表于 10-11 16:01

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、现阶段更智能、更接近AGI的6算法与模型 1、MoE模型 MoE模型作为Transfomer模型的后继者,代表着AI技术的一项重大创新和发展。 优势: 在于能处理庞大的参数规模,显著减少内存占用
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    智能的第一层,也是最基础的一层。 主要负责从外部环境获取数据,并将这些数据转化为计算机可以理解的形式。感知层包括各种传感器和输入设备,如摄像头、麦克风、键盘和激光雷达等。 作用:是将外部数据转化
    发表于 09-18 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验科学、理论科学、计算科学、数据驱
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    ②Transformer引擎③NVLink Switch系统④机密计算⑤HBM FPGA: 架构的主要特点:可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。 ASIC: 介绍了几种ASIC AI芯片
    发表于 09-12 16:07

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其复杂和精密的。大脑在本质上就是一台湿润的软组织
    发表于 09-06 19:12

    AI 边缘计算网关:开启智能新时代的钥匙​—龙兴物联

    ,这一过程常受网络延迟和不稳定的困扰。如今,借助 AI 边缘计算网关,数据处理任务下沉至网络边缘,在本地即可快速完成。以智能安防监控为例,在大型商场
    发表于 08-09 16:40

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络
    发表于 07-16 15:29

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些
    发表于 07-04 11:14

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    PIX GP模型的整合,并且针对模型进行全链路微秒级分析,以确保最佳的端到端性能表现。在双方的整个合作流程,开发效率提升了30%。 天玑AI生态同样拓展到了智能座舱领域。联发科和绝影合作,快速完成了绝影
    发表于 04-13 19:52

    适用于数据中心和AI时代的800G网络

    随着人工智能AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络
    发表于 03-25 17:35

    stm32h750 cube aiai_network_create_and_init了,怎么解决?

    进去发现是卡在ai_platform_network_create,CRC也开了,要疯掉
    发表于 03-14 07:22

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    再次感谢发烧友提供的阅读体验活动。本期跟随《AI Agent 应用与项目实战》这本书学习如何构建开发一个视频应用。AI Agent是一种智能应用,能够根据用户需求和环境变化做出相应响应。通常基于深度
    发表于 03-05 19:52

    AI赋能边缘网关:开启智能时代的新蓝海

    在数字化转型的浪潮AI与边缘计算的结合正掀起一场深刻的产业变革。边缘网关作为连接物理世界与数字世界的桥梁,在AI技术的加持下,正从简单的数据采集传输节点,进化为具备智能决策能力的边
    发表于 02-15 11:41

    HarmonyOS NEXT 应用开发练习:AI智能对话框

    一、练习内容 在这个HarmonyOS NEXT原生应用DEMO,我们将使用ArkTS开发语言创建一个功能更为丰富的AI智能对话框。这个对话框不仅具备基本的聊天功能,还能展示图片消息、表情符号,并
    发表于 01-03 11:29