近年来,AIGC深入渗透写作、编程、绘画、营销等各个领域。从回答问题到完成任务,AI相关的新技术不断发展,为生活带来了很多便利。算力作为AI发展的支撑,其规模投入一直在持续增长。与此同时,跟AI相关的网络技术即互联技术,相关的关注度及投入正在快速增加。此前,互联相关的技术在算力中心投入不足5%,现在已经逐渐增加到15%甚至20%,未来还可能会持续增加。互联,已经成为AI算力基础设施中非常重要的组成部分。
模型及应用持续发展,带来算力形态变化
随着基础模型的变化和AI应用的变化,算力中心的算力形态也在逐渐发生变化。模型的参数规模越来越大,从千亿级到万亿级的大模型仍然在持续增长。随着推理应用的逐步落地,ROI成为了企业部署大模型考虑的关键,在考虑性能的同时、还需兼顾体验和成本的平衡。所谓的性能就是支持快速的响应速度,同时要支持高并发,以及在整个应用环境中取得成本的平衡。同时,轻量级小模型也在纷纷推出,边缘推理性能大幅提升。以通义千问3-4B为例,在4B的模型上已经可以取得不错的应用效果,整体在端侧应用表现出较大的优势。
Scaling Law受到限制,需算法和工程协同演进
很多人现在意识到了一个问题,经典的基于Transformer 的Scaling Law(缩放定律)正面临挑战:集群算力增长放缓,单纯缩放效果放缓。首先是算力的增长跟不上软件与模型的算力需求,其次是单纯靠算力堆叠更大规模的缩放效果也逐步放缓。因此,在大模型的发展领域,堆算力时代已经成为过去,工程优化成为了必须。在这方面,DeepSeek做了一个非常好的榜样,如何通过软硬件协同的设计,将模型、训练和硬件基础设施整合在一起,或者是基于现有的硬件设施改进模型设计和优化模型的设计等。只有通过这种方式,通过算法、软硬件、工程协同的进展,才能够持续过去的缩放定律或者持续这种性能提升的趋势。
为何互联在高性能AI发展中存在重要价值?
在训练和推理的规模越来越大的情况下,对算力的需求越来越增加,通信的效能就成为了整个模型关键的影响因素。根据Meta在2024年的相关数据,在模型训练不同的情况下,通信的开销占比已经占到整个时间的平均30%左右。如今,随着AI推理的落地,大家也发现,其响应速度也就是TPOT(Time Per Output Token)和互联性能成正比,互联速度越高,吞吐速度越高,即TPOT会越强。
大模型训推的并行方式
在大模型训练和推理方式上,业界也有比较多的并行技术可以帮助提升训练效率,比如张量并行、流水线并行、数据并行、专家并行等等。(注:DP数据并行不适用推理侧)
TP 是张量并行(Tensor Parallel),是对模型的每个层做了一个层内的拆分。使用TP 能达到很好的 GPU 利用率。TP通信粒度是非常细的。TP 每计算完成一次层的拆分,就需要有一次通信来做 AllReduce 合并,虽然 TP 单次通信量较小,但是它通信频率频次都很高,对带宽的要求也很高。
PP 是流水线并行(Pipeline Parallel),也就是模型的层与层之间拆分,把不同的层放到不同的 GPU 上。在计算过程中,必须顺序执行,后面的计算过程依赖于前面的计算结果。一个完整的 Pipeline运行起来需要将一个workload 切分成很小的多个 workload,也就是需要将一个比较大 Batch size 切分成很多个小 Batch 才能保持流水线并行的高吞吐。
EP是专家并行(Expert Parallel),是指在专家模型中,将不同的专家分配到不同设备上,每个设备只负责一部分专家的计算。专家并行可以增加模型的容量,同时提高计算效率。但需要在设备间不断传输数据和梯度,对于通信频次开销要求高。在一定程度上还要通过有效的路由机制,确保专家之间的负载均衡。
大模型在进行并行计算过程中,TP(张量并行)已经占到了整个通信量的80%,需要TB级别的带宽(Scale-up GPU间互联),所以超节点变成了非常重要的技术手段。DP(数据并行)和PP(流水线并行)一般通过Scale out互联应对,需要Tb级别的带宽;而在将MoE引入EP(专家并行)通信,则会带来更复杂的流量。在不同的情况下,流量不同,需要更复杂的调度算法和更完善的通信技术手段。
在Scale-up 网络侧,超节点已经成为大规模训练、并行推理中重要的支撑技术。
超节点将成百上千张GPU互联在一起,犹如一个巨型GPU般工作;此外,还可以通过构建更大的HBD系统,以应对多种并行通信造成的巨大通信数据量。因此需要在更大规模的机柜或者几个机柜之间,引入超高带宽的互联,这通常是TB级别的。这会带来什么好处?以英伟达为例,在Hopper架构时代的DGX8卡,跟基于GB300的NVL72相比,超节点的性能带来了50倍的提升,同时其投入产出比也带来了十倍的提升。
但在AI网络中,Scale-up面临着四大挑战:
一是需要超高带宽;
二是需要可扩展的拓扑,支持不同的超节点的形态;
第三是需要通用的协议来做互联互通,传统的通算协议(PCIe/CXL)和私有协议都具备局限性,因此业界的主要Scale up生态,都在做Scale Up协议的标准化,从而实现通用化标准化的目标;
第四是多语义的支持。
从Scale-out侧来看,AI网络面临几大核心挑战:
首先需要非常高的传输性能,Tb级别的传输延时要可控;
其次是要实现万卡、十万卡甚至更大规模流控的能力;
第三是要有相对可以控制的部署成本,因为企业部署的数量太多,理论上而言一个或者两个GPU就需要配备一个超级网卡。
因此,智算行业正在发生变化。智算的集群里面需要的是针对AI原生的超级网卡。AI本质是需要一个非常高效的方式来进行网络传输,需要非常高性能的RDMA引擎,需要更加复杂的网络控制,来真正有效的实现数据传输。
从协议的角度来看,过去传统的RDMA有一些不足之处,因此业界需要一个更加现代化的下一代RDMA的标准,即UEC(Ultra Ethernet Consortium,超级以太网联盟)。自去年诞生之后,UEC已经完成了多项工作,核心就是要解决复杂网络之间的多径传输、乱序等问题,以及实现拥塞情况下更好的流控手段和更高效的重传方式。这些都是需要在AI里面来解决的,也是RDMA需要面对的新挑战。
奇异摩尔如何通过互联构建高性能AI基础设施
对于国产算力而言,产业界众多企业正共同努力,以构建国产算力的集群与基础设施。GPU或者说AI芯片,当然是其中非常重要的手段,在AI芯片之外,互联也非常重要。
奇异摩尔作为AI网络互联领域极少数可以提供全栈式互联产品架构及解决方案的供应商,依托于高性能RDMA 和Chiplet技术,聚焦AI互联领域,构建了一整套覆盖Scale-out网间互联、Scale-up超节点GPU片间互联及Scale-inside 芯片内互联的产品解决方案,为AI高性能计算提供了坚实的支撑。
在第五届中国集成电路设计创新大会暨IC应用生态展(ICDIA创芯展)上,奇异摩尔首席网络架构专家叶栋受邀出席本次大会,并将在AIDC开发者论坛上进行主题为《从横向扩展迈向纵向升级:全栈式互联重塑高性能 AI 基础设施》的演讲,分享AI大模型训推基础设施趋势及挑战并分享奇异摩尔的互联产品解决方案。
活动预告
大会简介
本届大会以“自主创新•应用落地•生态共建”为主题,围绕AI大算力与数据处理、光子集成电路、超异构计算、RISC-V生态、5G射频/6G半导体、AIoT与边缘计算、智能汽车与自动驾驶,分享前沿技术突破与应用场景,推动创新成果转化与产业链协同,促进芯片、应用方案与整机研发深度合作。
ICDIA创芯展以“1+1+4+1”模式,即打造1场高峰论坛、1场AI开发者主题大会、4场分论坛(先进设计与创芯应用+汽车芯片与智能驾驶+AIoT与智联生态+产研项目与投资对接)、1场IC应用生态展。
演讲嘉宾
叶栋,2002年北邮博士毕业,B-ISDN宽带通信专业,拥有超过20年的网络互联系统架构设计经验 ,在AI网络协议、RDMA、虚拟化、软件协议栈等方面拥有丰富的专业知识。在英特尔(中国)工作多年,曾任英特尔网络互联产品事业部技术总监,负责英特尔以太网,P4可编程交换芯片,FPGA智能网卡, Google IPU相关系统架构产品的本地化研发和部署。启动和主导了基于FPGA的智能网卡方案在国内的设计开发和推广,构建了多家大型云厂商和服务商等大规模部署的技术方案的底座。
关于我们
AI网络全栈式互联架构产品及解决方案提供商
奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale-out网络的AI原生超级网卡、面向南向Scale-up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。
-
AI
+关注
关注
90文章
38188浏览量
296992 -
奇异摩尔
+关注
关注
0文章
73浏览量
3981 -
大模型
+关注
关注
2文章
3455浏览量
4974
原文标题:奇异摩尔受邀出席ICDIA 2025 创芯展AI开发者论坛,邀您共探AI Networking互联趋势
文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
九联科技亮相2025开放原子开发者大会
「RKDC2025」EASY EAI灵眸科技受邀亮相第九届瑞芯微开发者大会
迅龙软件参加昇腾 AI 开发者创享日・广东站,为开发者打造沉浸式实操体验
奇异摩尔出席第三届芯粒开发者大会AI芯片与系统分论坛
广立微亮相ICDIA 2025创芯展
智芯公司亮相ICDIA 2025创芯展
启扬受邀参加2025瑞芯微开发者大会
软通动力出席华为开发者大会2025
格灵深瞳亮相Create2025百度AI开发者大会
普华基础软件受邀出席矽力杰2025开发者大会
奇异摩尔受邀出席第三届HiPi Chiplet论坛
2025昇腾AI开发者创享日浙江站成功举办,现场演示OrangePi AIpro(20T)部署DeepSeek模型开发全流程

奇异摩尔受邀出席ICDIA 2025创芯展AI开发者论坛
评论