0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Scale out成高性能计算更优解,通用互联技术大有可为

Felix分析 来源:电子发烧友网 作者:吴子鹏 2024-04-07 00:06 次阅读
电子发烧友网报道(文/吴子鹏)从聊天机器人程序ChatGPT,到文生视频大模型Sora,AI大模型的蓬勃发展背后,为算法模型、高质量数据、算力基础设施带来了持续的挑战。“当企业通过Scale out提升集群规模,就需要把数据中心从微观到宏观、点对点地连接起来,增强各个层面的互联性能,真正有效地应用算力资源。” 奇异摩尔创始人兼CEO田陌晨在接受电子发烧友采访时表示。

伴随着摩尔定律的放缓步伐,通过Scale up提升单处理器系统的性能和算力遭遇了“流水线过长,延迟高、布线困难”等重重困境。Scale out作为Scale up的延续,在物理层面引入了规模性互联,让“算力-互联”成为算力提升的新型抓手。研究机构IPnest预测,2025年,“片间互联技术”接口IP市占率有望超过处理器IP,成为排名第一的IP品类。那么,片内、片间、网间的互联技术未来会呈现何种特点?高性能计算体系将如何发展?就这些话题,我们采访了互联技术领域代表企业奇异摩尔CEO田陌晨先生。
片内互联:从专用到通用
理论上,芯粒可被视作固定模块,实现不同产品、代际的复用。在智算中心集群发展中,以互联芯粒IO Die为代表的互联芯粒在提升良率、降低制造复杂度和成本等方面所显示出的优势,已成为行业发展共识。AMD的Zen系列和英特尔Clearwater Forest旗舰级数据中心处理器都是典型案例。
Intel Clearwater Forest 2
田陌晨认为,IO Die为代表的片内互联技术呈现芯粒化、3D化发展两大趋势。芯粒化是为了增进架构灵活性,降低芯片对先进工艺的依赖;3D化则是通过纵向维度进一步提升互联密度。
目前,市场上的IO Die主要为AMD、英特尔等大厂主导,但私有协议无法兼容不同来源的芯粒,专用IO Die的封闭生态已成为其发展掣肘。受到巨大的需求推动,通用IO芯粒开始崭露头角。以奇异摩尔旗下的通用互联芯粒 Kiwi IO Die为例,产品集成了如D2DDDRPCIeCXL等大量存储、互联接口,最高可以支持10+Chiplets,构建高达192 core CPU或1000T GPU的算力平台。
奇异摩尔通用互联芯粒 Kiwi IO Die
与其同时,受益于先进封装技术的进步,IO Die也出现了2.5D向3D的结构变化。Base Die可视为IO Die的3D形态,允许不同计算、存储芯粒的堆叠或并排放,可显著提升芯片单位面积晶体管的集成度,带来更高的带宽,更低的延迟、功耗。
市场上Base Die的境况与IO Die类似,虽然专用产品已在市场上展现了商业化价值,但技术并未扩散,而是被少数头部企业垄断。在奇异摩尔为代表的创新企业努力下,Base Die通用市场开始起步。据田陌晨介绍,奇异摩尔旗下的通用互联底座Kiwi 3D Base Die,在3D高性能通用底座方面属全球首例,实现了通用互联芯粒在带宽、能效、搭载芯片数量等多方面的突破性进展,能够以20%的功耗实现8倍于2.5D结构的互联密度,最高可实现16颗算力芯粒堆叠。
奇异摩尔通用互联底座Kiwi 3D Base Die
IO Die和Base Die只是互联技术的两个典型的例子,说明片内互联技术如何在计算与存储之间、在庞大的智算中心和Scaling out 的浪潮中,产生对计算能力的更多助力。事实上,除了片内互联,还有许多种方法可以让更多的数据实现更高好的连接和更低的成本,比如片间互联、网间互联技术的单点到全面突破。
亟待加速的片间互联:D2D接口
和片内互联一样,受益于算力和突飞猛进的算力增长需求,片间互联技术亟需加速。基于Chiplet技术的Die-to-Die技术(D2D)带来了一种更高效的计算和内存的连接方式,可以看似毫不费力的将计算、存储芯粒集成在一起,在互联层面上形成一个SoC级芯片。
相比传统的计算芯片和存储芯片的互联方式,D2D提供了更高效、更低延迟的连接方式,是Chiplet实现的基础,田陌晨介绍。通过Die间通信,D2D可以实现更高的传输带宽和更高密度的集成;D2D能有效缩短数据传输的物理距离,降低延迟,提高处理速度;作为先进封装的基础,D2D可以实现计算和存储单元的无缝连接,进一步提高性能、降低功耗;基于D2D,企业可以更灵活地实现计算和存储单元的多模组配置,提高系统可扩展性、灵活性,降低系统维护成本。这些优势,使得D2D接口在高性能集群的Scaling out建设中,发挥了关键的作用。
和IO Die一样,D2D也需要通用化的大力推进。奇异摩尔基于UCIe标准,推出了全球首批支持 UCIe V1.1 的 Die2Die IP,互联速度高达32GT/s,延时低至数纳秒,全面支持UCIe、CXL、Streaming等主流协议,即插即用。田陌晨说,奇异摩尔所有产品都构建在国际标准协议之上,致力于使各家产品实现互联互通,构成一个开放的Chiplet系统。
奇异摩尔高速互联接口Kiwi Die2Die IP
RISC-V+Chiplet:1+1>2
如今,Chiplet之外,RISC-V架构也在大举迈进高性能计算。边缘计算市场,传统通用型MCU/MPU/CPU已经难以满足不同应用场景和性能要求,RISC-V了带来更好的PPA实现。RISC-V的本质是一个开放标准,冲击高性能运算市场是发展的必然,而二者(与Chiplet)的融合,被认为能为高性能计算市场开辟一场1+1>2的创新动力。这也是RISC-V高性能处理器的代表性企业Ventana与奇异摩尔合作的深层动因。
Ventana创始人兼CEO Balaji Baktha介绍,两家企业联手打造了一个可扩展处理器架构,可将多个Ventana Veyron V2与奇异摩尔的IO Die组成不同配置的SoC。田陌晨认为,V2与奇异摩尔IO Die的结合,是RISC-V和Chiplet在高性能计算领域融合的成功案例。

“RISC-V具备开源、开放、灵活和高度可定制特性,设计了多种用于任务加速的指令集扩展,能实现向量计算、加解密等任务加速,具有较高的计算性能,且简洁特性能降低芯片的功耗。”Balaji说,“而Chiplet是构建下一代半导体产品前进战略的重要组成部分,可以轻松构建高性能CPU。其‘可组合性’让用户以最佳比例组合计算、内存和IO,创造一个在性能、成本效益、工作负载等各方面都更为高效的系统。将RISC-V的开放式架构与 Chiplet开放式硬件设计相结合,能有效推动数据中心的工作流程效率,将单插槽性能发挥到极致。”
记者了解到,奇异摩尔和Ventana一直在努力将RISC-V和IO Die的组合推向下一代计算架构的前沿,以提高数据中心服务的效率和工作负载的效率,并共同创建了一款高性能数据中心级RISC-V处理器,其融合了RISC-V 架构和模块化的Chiplet设计的优势,每个V2单元包括32个核心,最终实现最高192个内核,这也是全球首例数据中心级的RISC-V Chiplet处理器。
回顾这次和Ventana的合作,田陌晨称,从技术互通性角度看,基于IO Die的互联,x86、ARM和RISC-V三大架构都需要采用大量存储访问和外部接口,进行大量传输、读取及调度。RISC-V和Chiplet技术融合进一步提升了计算平台的定制特性,可以避免那些对高性能运算有需求的客户被锁定在一个供应商的生态内,并助力企业应对AGI所引发的架构变革挑战,这在x86和ARM的Chiplet设计中较难实现。
当然,RISC-V和Chiplet技术融合,也伴随着如Die间通信、高性能、特定领域等多重挑战,如,为实现不同来源芯粒的通信,两家公司采取了IO Die中央设计连接CPU芯粒的方案,通过Kiwi Fabric实现了纳秒级的低延迟和高效的数据传输。让整个SoC在工作流的角度上,呈现独立CPU的特质。
在性能方面,为达到现有ISA(x86/ARM)设定的高性能基准,确保处理器微架构可以提供世界一流性能,双方合作的产品最高可实现192个内核。同时,通过一致性互联,让所有内核共享高性能、高速缓存和内存。
在特定领域方面,通过对计算芯粒、内存和各种加速器配比的整体规划,为各种工作负载提供灵活的硬件配置选项;在CPU中内置了端到端的RAS,确保所有总线都受到安全启动验证和级别验证等保护,同时克服侧通道攻击和其他漏洞,确保CPU芯粒和整个SoC层面的安全。
从计算加速到网络加速
从行业动态来看,高性能运算从Scale up向Scale out的转变是全方位的,在芯片设计、算力卡间、集群间无不如此。简单的说,Scale out最核心的改变就是互联。田陌晨认为,在Scale out所引发的巨量数据交互挑战背后,是加速重点从计算到网络的转变和“Bandwidth, Efficiency, Workload”互联三要素的优化需求。
在算力集群网络传输协议方面,传统协议TCP/IP存在CPU负载重、延迟高等缺点,难以满足高性能计算对网络吞吐、时延的苛刻要求。RDMA能直接通过网络接口访问内存数据,无需操作系统内核的介入,让大规模并行计算集群成为可行。计算机网络协议栈将从TCP/IP过渡到RDMA,在网络层面上,把一个集群变成一台设备。
RDMA并未规定完整的协议栈,因此包含不同的分支,如英伟达的Quantum InfiniBand是专门为RDMA设计的一种超低延迟、超高吞吐量的专用网络引擎。然而,业界需要一种更为通用化的解决方案。在性能方面可与InfiniBand匹敌的RoCE显著降低了RDMA协议通信成本,被认为能够打破英伟达在这个领域的技术垄断。
这也是奇异摩尔推出高性能网络加速芯粒Kiwi NDSA(Network Domain Specific Accelerator)系列的原因所在。据介绍,Kiwi NDSA内建RoCE V2高性能 RDMA (Remote Direct Memory Access) 和数十种卸载/加速引擎,可作为独立芯粒,实现系统不同位置的加速。Kiwi NDSA产品系列包括“NDSA-RN-F”和“NDSA-RN”。前者是全球首批200/400G的高性能FPGA RDMA网卡,将在近期面世;后者是全球首款支持800G带宽的RDMA NIC Chiplet产品,除带宽升级到800G之外,延时也降至纳秒级,并支持数十GB的超大规模数据包。
奇异摩尔高性能网络加速芯粒Kiwi NDSA
结语
在高性能计算体系全方位从Scale up向Scale out转变的背景下,互联技术已成为提升集群算力的新方案。以IO Die为代表的互联芯粒正在加速其通用化进程和2.5D至3D转变;片间PCIe等传统传输方式正在被低延迟、低功耗的D2D技术取代;集群互联网络则从TCP/IP转向RDMA架构,通用RDMA方案将迎来更广阔的机遇。互联技术和RISC-V架构的融合,能够助力企业更好地应对AGI所引发的架构变革挑战,帮助高性能计算领域用户实现Scale out。未来,对几乎每一家高性能计算产业链上的企业来说,互联都是一个至关重要的市场。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SCALE
    +关注

    关注

    3

    文章

    13

    浏览量

    13856
  • 高性能计算
    +关注

    关注

    0

    文章

    67

    浏览量

    13296
  • chiplet
    +关注

    关注

    6

    文章

    380

    浏览量

    12419
  • 奇异摩尔
    +关注

    关注

    0

    文章

    32

    浏览量

    3203
  • 芯粒
    +关注

    关注

    0

    文章

    48

    浏览量

    64
收藏 人收藏

    评论

    相关推荐

    DLP技术在智能家居中大有可为

    电子发烧友网报道(文/黄山明)DLP技术自发明以来,经历了实验室研究、原型开发、商业化应用以及持续的技术创新和市场扩张,成为现代投影和显示行业中不可或缺的关键技术之一,尤其在智能家居领域,DLP
    的头像 发表于 03-31 13:28 3020次阅读
    DLP<b class='flag-5'>技术</b>在智能家居中<b class='flag-5'>大有可为</b>

    萨科微总经理宋仕强:华强北贸易商来卖国产品牌大有可为

    萨科微总经理宋仕强说,华强北贸易商来卖国产品牌大有可为,他们本身有这些优势A. 熟悉华强北电子市场和电子信息产品B. 客情关系好,和终端客户和市场客户有深度的交流和交情,C .为客户服务的商务方式多
    发表于 03-22 09:47

    什么是HPC高性能计算

    高性能计算(HighPerformanceComputing,简称HPC),是指利用集群、网格、超算等计算机技术,通过合理地组织计算机资源以及运用适合的算法和程序,提高
    的头像 发表于 02-19 13:27 193次阅读
    什么是HPC<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>

    知合计算完成数亿元融资,致力于研发高性能通用可扩展处理器

    该公司专注于高性能通用可扩展处理器的研发,运用芯片切片技术扩大运算能力范围,同时结合光计算和光互联技术
    的头像 发表于 01-11 10:26 3063次阅读

    FPGA在高性能计算中的优势及其用例都有哪些?

    近年来,现场可 编程 门阵列 ( FPGA ) 因其可定制性、并行处理和低延迟而成为高性能计算 (HPC) 的可行技术高性能计算 (HP
    的头像 发表于 12-09 12:15 461次阅读
    FPGA在<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>中的优势及其用例都有哪些?

    驱动云/边缘侧算力建设的高性能互联接口方案

    驱动云/边缘侧算力建设的高性能互联接口方案
    的头像 发表于 11-23 16:30 230次阅读
    驱动云/边缘侧算力建设的<b class='flag-5'>高性能</b><b class='flag-5'>互联</b>接口方案

    一种高性能多通道通用DMA设计与实现

    为充分发挥异构多核DSP芯片的实时计算能力,设计并实现了一种高性能多通道的通用DMA,该DMA最大支持64个通道的数据搬运,并支持一维、二维、转置以及级联描述符等多种传输模式。芯片实测传输性能
    的头像 发表于 11-20 15:52 610次阅读
    一种<b class='flag-5'>高性能</b>多通道<b class='flag-5'>通用</b>DMA设计与实现

    希捷:构建数智未来,存储大有可为

    供的覆盖边缘、云端等一系列存储解决方案以及前沿技术,并且开启了以“构建数智未来,存储大有可为”为主题的发布。希捷亮相第十九届中国国际社会公共安全博览会希捷CPSE展台:构建数智未来,存储大有可为
    的头像 发表于 10-26 09:42 380次阅读
    希捷:构建数智未来,存储<b class='flag-5'>大有可为</b>

    三大更新即将发布,蓝牙技术大有可为

      电子发烧友网报道(文/吴子鹏)近段时间,关于蓝牙、星闪技术和UWB之间的讨论非常热烈,有时候范围还会扩展到Wi-Fi,一时间蓝牙的处境看上去有些四面楚歌。不过,在“蓝牙诞生25周年:致力于建立
    的头像 发表于 10-23 08:16 1315次阅读
    三大更新即将发布,蓝牙<b class='flag-5'>技术</b>仍<b class='flag-5'>大有可为</b>

    OpenHarmony应用核心技术理念与需求机遇简析

    新的表现形式。 所以各种传统的WEB网站,客户端平台,尽早进入OpenHammony应用服务体系,享受各项支持政策和红利,从现有的红海互联网、移动互联网市场进入OpenHarmony智能物联网蓝海领域,大有可为
    发表于 09-22 16:12

    FPGA在高性能计算中的优势及其用例都有哪些?

    近年来,现场可编程门阵列 (FPGA) 因其可定制性、并行处理和低延迟而成为高性能计算 (HPC) 的可行技术
    发表于 08-21 09:05 502次阅读
    FPGA在<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>中的优势及其用例都有哪些?

    萨科微:半导体“国产替代”大有可为

    萨科微半导体副总经理和俊驹说,半导体“国产替代”大有可为,萨科微slkor研发生产的IGBT管、碳化硅场效应管的市场会越来越大!国产功率半导体已在众多领域应用,特别是低端产品,如萨科微的TVS二极管
    的头像 发表于 08-18 14:00 270次阅读
    萨科微:半导体“国产替代”<b class='flag-5'>大有可为</b>

    萨科微,半导体“国产替代”大有可为

    萨科微半导体副总经理和俊驹说,半导体“国产替代”大有可为,萨科微slkor研发生产的IGBT管、碳化硅场效应管的市场会越来越大!国产功率半导体已在众多领域应用,特别是低端产品,如萨科微的TVS二极管
    的头像 发表于 07-06 14:16 378次阅读
    萨科微,半导体“国产替代”<b class='flag-5'>大有可为</b>

    从ChatGPT等大模型的兴起,看未来计算芯片的发展趋势

    其次,扩大集群规模,也即大家熟知的Scale Out。要想Scale out,就需要增强集群的内联交互,也就是要更高的带宽,更高效的高性能
    的头像 发表于 05-30 11:22 611次阅读
    从ChatGPT等大模型的兴起,看未来<b class='flag-5'>计算</b>芯片的发展趋势

    易飞扬携高性能计算互连硬件和液冷互连解决出席德国ISC高性能计算大会

    德国汉堡国际会展中心举办。届时,易飞扬将携高性能计算互连硬件和液冷互连解决出席5月22-24日的展览,展位号G718。 高性能计算的本质是并行计算
    的头像 发表于 05-06 18:21 465次阅读